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La presente invention est relative k une nouvelle souche de corona- 
virus associe an syndrome respiratoire aigu severe (SRAS), issue d'un pr61evement 
repertorie sous le n° 031589 et preleve a Hanoi (Vietnam), a des molecules d'acide 
nucleique issues de son genome, aux proteines et peptides codes par lesdites 
5 molecules d'acide nucl6ique ainsi qu'a leurs applications, notamment en tant que reac- 
tifs de diagnostic et/ou comme vaccin. 

Le coronavirus est un virus a ARN monocatenaire, de polarite posi- 
tive, d'approximativement 30 kilobases qui se replique dans le cytoplasme des cellules 
notes ; Pextremite 5' du genome a une structure en coiffe et 1'extremite 3' comporte 
10 une queue polyA. Ce virus est enveloppe et comprend, a sa surface, -des structures 
p6plomeriques- d6nommees spicules. 

Le genome comprend les cadres ouverts de lecture ou ORF suivants, 
de son extremite 5' vers son extremitd 3' : ORFla et ORFlb correspondant aux 
proteines du complexe de transcription-replication, et ORF-S, ORF-E, ORF-M et 
15 ORF-N correspondant aux prot6ines structurales S, E, M et N. II comprend egalement 
des ORFs correspondant a des proteines de fonction inconnue cod6es par : la region 
situee entre l'ORF-S et l'ORF-E et chevauchant cette derniere, la region situee entre 
r ORF-M et l'ORF-N, et la region incluse dans l'ORF-N. 

La protdine S est une glycoproteine membranaire (200-220 kDa) qui 
se presente sous la forme de spicules ou "Spike" emergeant de la surface de 
l'enveloppe virale. Elle est responsable de 1'attachement du virus aux r6cepteurs de la 
cellule h6te et de l'induction de la fusion de l'enveloppe virale avec la membrane 
cellulaire. 

La petite proteine d'enveloppe (E) 6galement denommee sM (small 
membrane) qui est une proteine trans-membranaire non glycosylee d'environ 10 kDa, 
est la proteine presente en plus faible quantite dans le virion. Elle joue un role moteur 
dans le processus de bourgeonnement des coronavirus qui se produit au niveau du 
compartiment intermediaire dans le reticulum endoplasmique et l'appareil de Golgi 

La proteine M ou proteine de matrice (25-30 kDa) est une glyco- 
proteine membranaire plus abondante qui est integree dans la particule virale par une 
interaction M/E, tandis que l'incorporation de S dans les particules est dirigee par une 
interaction S/M. Elle semble etre importante pour la maturation virale des coronavirus 



et pour la determination du site au niveau duquel les particules virales sont assem- 
bles. 

La prot6ine N ou proteine de nucleocapside (45-50 kDa) qui est la 
plus conservee parmi les proteines structurales des coronavirus, est necessaire pour 
5 encapsider l'ARN genomique puis pour diriger son incorporation dans le virion. Cette 
prot6ine est vraisemblablement egalement impliquee dans la replication de l'ARN. 

Lorsqu'une cellule h6te est infectee, le cadre de lecture (ORF) situe 
en 5' du genome viral est traduit en une polyproteine qui est clivee par les proteases 
virales et libere alors plusieurs proteines non-structurales telles que l'ARN- 
10 polymerase ARN dependante (Rep) et l'ATPase h61icase (Hel). Ces deux proteines 
sont impliquees dans la replication du genome viral ainsi que dans la generation de 
transcrits qui sont utilises dans la synthese des proteines virales. Les mecanismes par 
lesquels ces ARNms sub-genomiques sont produits, ne sont pas complement 
compris ; cependant des faits recents indiquent que les sequences de regulation de la 
15 transcription a l'extremite 5' de cbaque gene represented des signaux qui regulent/la 
transcription discontinue des ARNms sub-genomiques. f 

Les proteines de la membrane virale (proteines S, E et M) sont inse- 
rees dans le compartiment intermediaire, alors que l'ARN replique (brin +) s'assemble 
avec la proteine N (nucleocapside). Ce complexe proteine-ARN s'associe ensuite avec 
20 la prot6ine M incluse dans les membranes du reticulum endoplasmique et les 
particules virales se forment lorsque le complexe de la nucleocapside bourgeonne dans 
le r6ticulum endoplasmique. Le virus migre ensuite a travers le complexe du Golgi et 
eventuellement sort de la cellule, par exemple par exocytose. Le site de l'attacbement 
du virus a la cellule h6te se trouve au niveau de la proteine S. 
25 Les coronavirus sont responsables de 15 a 30 % des rhumes chez 

l'Homme et defections respiratoires ou digestives chez les animaux, notamment le 
cbat (FIPV : Feline infectious peritonitis virus), la volaille (1BV : Avian Infectious 
bronchitis virus), la souris (MHV : Mouse Hepatitis virus), le pore (TGEV : 
Transmissible gastroenterititis virus, PEDV : Porcine Epidemic Diarrhea virus, 
30 PRCoV: Porcine Respiratory Coronavirus, HEV : Hemaggluiinating encephalo- 
myelitis Virus) et les bovins (BcoV : Bovine coronavirus). 



En general, chaque coronavirus n'affecte qu'une seule espece ; chez 
les individus immunocompetents, 1 'infection induit des anticoips eventuellement 
neutralisants et une immunite cellulaire, capables de detruire les cellules infectees. 

Une epidemie de pneumonie atypique, denommee syndrome respi- 
ratoire aigu severe (SARS ou Severe acute respiratory syndrome, SRAS en francais) 
s'est propagee dans differents pays (Vietnam, Hong-Kong, Singapour, Tha'ilande et 
Canada) au cours du premier trimestre 2003, a partir d'un foyer initial apparu en 
Chine dans le dernier trimestre de 2002. La severite de cette maladie est telle que son 
taux de mortalite est d'environ 3 a 6 %. La d6termination de l'agent causatif de cette 
maladie a ete entreprise par de nombreux laboratoires, a travers le monde. 

En mars 2003, un nouveau coronavirus (SARS-CoV, SARS virus ou 
virus SRAS, en francais) a ete isole, en association avec des cas de syndrome respi- 
ratoire aigu severe (T.G.KSIAZEK et al., The New England Journal of Medicine, 
2003, 348, 1319-1330 ; C. DROSTEN et al., The New England Journal of Medicine, 
2003, 348, 1967-1976 ; Peiris et al., Lancet, 2003, 361, 13 19-). 

Des sequences genomiques de ce nouveau coronavirus ont ainsi ete 
obtenues, notamment celles de l'isolat Urbani (Genbank n° d'acces AY2741 19.3 et A. 
MARRA et al., Science, May 1, 2003, 300, 1399-1404) et de l'isolat de Toronto 
(Tor2, Genbank n° d'acces AY 278741 et A. ROTA et al., Science, 2003, 300, 1394- 
1399). 

L' organisation du genome est comparable a celle des autres corona- 
virus connus permettant ainsi de confirmer 1'appartenance du SARS-CoV a la famille 
des Coronaviridae ; les cadres ouverts de lecture ORFla et lb et les cadres ouverts de 
lecture correspondent aux proteines S, E, M, et N, ainsi qu'a des prot6ines codees par : 
la nSgion situee entre l'ORF-S et l'ORF-E (ORF3), la region situee entre l'ORF-S et 
l'ORF-E et chevauchant l'ORF-E (ORF4), la r6gion situee entre l'ORF-M et l'ORF-N 
(ORF7 a ORF11) et la region correspondant a l'ORF-N (ORF13 et ORF14), ont 
notamment 6te identifiees. 

Sept differences ont ete mises en 6vidence entre les sequences des 
isolats Tor2 et Urbani ; 3 correspondent a des mutations silencieuses (c/t en position 
16622 et a/g en position 19064 de l'ORFlb, t/c en position 24872 de l'ORF-S) et 4 
modifient la sdquencc en acides amines de respectivement : les proteines codees par 



l'ORFla (eft en position 7919 correspondant a la mutation A/V), la proteine S (g/t en 
position 23220 correspondant a la mutation AVS), la proline codee par l'ORF3 (a/g en 
position 25298 correspondant a la mutation R/G) et de la prot6ine M (t/c en position 
26857 correspondant a la mutation S/P). 
5 En outre, 1'analyse phylogen&ique montre que le SARS-CoV est 

eloigne des autres coronavirus et qu'il est apparu, ni par mutation de coronavirus 
respiratoires humains, ni par recombinaison entre des coronavirus connus (pour une 
revue, voir Holmes, J.C.I., 2003, 111, 1605-1609). 

La mise en evidence et la prise en compte de nouveaux variants sont 
10 importantes pour la mise au point de reactifs de detection et de diagnostic du SRAS 
suffisamment sensibles et sp6cifiques ainsi qu'a des compositions immunogenes aptes 
a proteger des populations contre des epidemies de SRAS. 

Les Inventeurs ont maintenant mis en evidence une autre souche de 
coronavirus associe au SRAS, qui se distingue des isolats Tor2 et Urbani. 
1 5 La presente invention a done pour objet, une souche isolee ou puri- 

fiee de coronavirus humain associe au syndrome respiratoire aigu severe, caracterjjjee 
en ce que son genome presente sous la forme d'ADN complements un codon serine 
en position 23220-23222 du gene de la prot6ine S ou un codon glycine en pos$on 
25298-25300 du gene de FORF3, et un codon alanine en position 791 8-7920 < de 
20 l'ORFla ou un codon serine en position 26857-26859 du gene de la proteine M, 
lesdites positions etant indiquees en r6ference a la sequence Genbank AY274119.3. 

Selon un mode de realisation avantageux de ladite souche, 
l'equivalent ADN de son genome presente une sequence correspondant a la sequence 
SEQ ID NO : 1 ; cette souche de coronavirus est issue du prelevement de lavage 
25 bronchoalveolaire d'un patient atteint de SRAS, repertori6 sous le n° 031589 et 
effectue a l'h6pital fran9ais de Hanoi (Vietnam). 

Conformement a l'invention, ladite sequence SEQ ID NO :1 est 
celle de l'acide desoxyribonucleique correspondant a la molecule d'acide 
ribonucl6ique du gdnome de la souche isolee de coronavirus telle que definie ci- 
30 dessus. 

La sequence SEQ ID NO : 1 se distingue de la sequence Genbank 
AY2741 19.3 (isolat Tor2) en ce qu'elle poss^de les mutations suivantes : 
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- g/t en position 23220 ; le codon alanine (get) en position 577 de la 
sequence en acides amines de la proteine S de Tor2 est remplace par un codon serine 
(tct), 

- a/g en position 25298 ; le codon arginine (aga) en position 11 de la 
5 sequence en acide amines de la proteine codee par PORF3 de Tor 2 est remplace par 

un codon glycine (gga). 

En outre, la sequence SEQ ID NO : 1 se distingue de la sequence 
Genbank AY278741 (isolat Urbani) en ce qu'elle possede les mutations suivantes : 

- t/c en position 7919 ; le codon valine (gtt) en position 2552 de la 
10 sequence en acides amines de la proteine codee par PORFla est remplace par un 

codon alanine (get), 

- t/c en position 16622 : cette mutation ne modifie pas la sequence 
en acides amines des prot&nes codees par PORFlb (mutation silencieuse), 

- g/a en position 19064 : cette mutation ne modifie pas la sequence 
15 en acides amines des proteines codees par PORFlb (mutation silencieuse), 

- c/t en position 24872 : cette mutation ne modifie pas la sequence 
en acides amines de la proteine S, et 

- c/t en position 26857 : le codon proline (ccc) en position 154 de la 
sequence en acides amines de la proteine M est remplace par un codon serine (tec). 

20 E n Pabsence de mention particuliere, les positions des sequences 

nucl6otidiques et peptidiques sont indiquees en reference a la sequence Genbank 
AY274119.3. 

La presente invention a egalement pour objet un polynucleotide isole 
ou purifie, caracterise en ce que sa sequence est celle du genome de la souche isolee 
25 de coronavirus telle que d&finie ci-dessus. 

Selon un mode de realisation avantageux dudit polynucleotide il 
pr6sente la sequence SEQ ID NO : 1 . 

La presente invention a egalement pour objet un polynucleotide isole 
ou purifie, caracterise en ce que sa sequence hybride dans des conditions de forte 
30 stringence avec la sequence du polynucleotide tel que defini ci-dessus. 

Les termes « isole ou purifie » signifient modifie « par la main de 
Phomme » a partir de Petat naturel ; autrement dit si un objet existe dans la nature, il 



est dit isold ou purifie s'il a ete modify ou extrait de son environnement naturel ou les 
deux. Par exemple, un polynucleotide ou une proteine/un peptide naturellement 
present dans un organisme vivant n'est ni isole, ni purifie ; en revanche le meme poly- 
nucleotide ou proteine /peptide separe des molecules coexistantes dans son environ- 
5 nement naturel, obtenu par clonage, amplification et/ou synthese chimique est isole au 
sens de la presente invention. De plus, un polynucleotide ou une proteine/peptide qui 
est introduit dans un organisme par transformation, manipulation genetique ou par 
toute autre methode, est « isole » m&ne s'il est present dans ledit organisme. Le terme 
purifie tel qu'utilise dans la presente invention, signifie que les proteines /peptides 
1 0 selon Tinvention sont essentiellement libres dissociation avec les autres proteines ou 
polypeptides, comme Test par exemple le produit purifi6 de la culture de cellules 
h6tes recombinantes ou le produit purifie a partir d'une source non-recombinante. 

Au sens de la presente invention, on entend par conditions dliybri- 
dation de forte stringency des conditions de temperature et de force ionique choisies 
1 5 de telle maniere qu'elles permettent le maintien de lTvybridation specifique et selective 
entre polynucleotides complementaires. . ; 

A titre d'illustration, des conditions de forte stringence aux fins de 
definir les polynucleotides ci-dessus, sont avantageusement les suivantes : ttiybrida- 
tion ADN-ADN ou ADN-ARN est realisee en deux Stapes : (1) prehybridation a 42°C 
20 pendant 3 heures en tampon phosphate (20 mM pH 7,5) contenant 5 x SSC (1 x SSC 
correspond a une solution 0,15 M NaCl + 0, 015 M citrate de sodium), 50 % de 
formamide, 7 % de sodium dodecyl sulfate (SDS), 10 x Denhardt's, 5 % de dextran 
sulfate et 1 % d'ADN de sperme de saumon ; (2) hybridation pendant 20 heures a 
42°C suivie de 2 lavages de 20 minutes a 20°C en 2 x SSC + 2 % SDS, 1 lavage de 20 
25 minutes a 20°C en 0,1 x SSC + 0,1 % SDS. Le dernier lavage est pratique en 0,1 x 
SSC + 0,1 % SDS pendant 30 minutes a 60°C. 

La presente invention a egalement pour objet un fragment represen- 
tatif du polynucleotide tel que defini ci-dessus, caracteris6 en ce qu'il est susceptible 
d'etre obtenu, soit par l'utilisation d'enzymes de restriction dont les sites de 
30 reconnaissance et de coupure sont presents dans ledit polynucleotide tel que defini ci- 
dessus, soit par amplification a l'aide d'amorces oligonucleotidiques specifiques dudit 
polynucleotide tel que defini ci-dessus, soit par transcription in vitro, soit par synthese 
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chimique. 

Selon un mode de realisation avantageux dudit fragment, il est selec- 
tionne dans le groupe constitue par : PADNc correspondant a au moins un cadre 
ouvert de lecture (ORF) choisi parmi : ORFla, ORFlb, ORF-S, ORF-E, ORF-M, 
5 ORF-N, ORF3, ORF4, ORF7 a ORF11, ORF13 et ORF14, et FADNc correspondant 
aux extremit6s 5* ou 3' non-codantes dudit polynucleotide. 

Selon une disposition avantageuse de ce mode de realisation, ledit 
fragment presente une sequence selectionnee dans le groupe constitue par : 

- les sequences SEQ ID NO : 2 et 4 reprSsentant 1'ADNc corres- 
10 pondant a 1' ORF-S qui code pour la proteine S, 

- les sequences SEQ ID NO : 13 et 15 repr6sentant l'ADNc corres- 
pondant a TORF-E qui code pour la proteine E, 

- les sequences sequence SEQ ID NO: 16 et 18 representant 
TADNc correspondant a PORF-M qui code pour la proteine M, 

15 - les sequences SEQ ID NO : 36 et 38 representant l'ADNc corres- 

pondant a T ORF-N qui code pour la proline N, 

- les sequences representant les ADNc correspondant respective- 
ment : aux ORFla et ORFlb (ORFlab, SEQ ID NO : 31), aux ORF3 et ORF4 (SEQ 
ID NO : 7, 8), aux ORF 7 4 11 (SEQ ID NO : 1 9, 20), a l 9 ORF13 (SEQ ID NO : 32) et 

20 h TORF14 (SEQ ID NO : 34), et 

- les sequences representant les ADNc correspondant respectivement 
aux extr£mites 5'(SEQ ED NO : 39 et 72) et 3' non-codantes (SEQ ID NO : 40, 73) 
dudit polynucleotide. 

La pr6sente invention a egalement pour objet un fragment de 
25 l'ADNc codant pour la proteine S, tel que defini ci-dessus, caracterise en ce qu'il 
presente une sequence selectionnee dans le groupe constitue par les sequences SEQ ID 
NO : 5 et 6 (fragments Sa et Sb). 

La presente invention a egalement pour objet un fragment de 
l'ADNc correspondant aux ORFla et ORFlb tel que defini ci-dessus, caracterise en ce 
30 qu'il presente une sequence selectionnee dans le groupe constitue par les sequences 
SEQ ID NO : 41 a 54 (fragments L0 a L12). 
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La presente invention a egalement pour objet un fragment du poly- 
nucleotide tel que defini ci dessus, caracterise en ce qu'il presente au moins 15 bases 
ou paires de bases consecutives de la sequence du genome de ladite souche incluant au 
moins une de celles situees en position 7979, 16622, 19064, 23220, 24872, 25298 et 
5 26857. De preference, il s'agit d'un fragment de 20 a 2500 bases ou paires de bases, 

de maniere prefcree de 20 a 400. 

Selon un mode de realisation avantageux dudit fragment, il inclut au 
moins un couple de bases ou de paires de bases correspondant aux positions 
suivantes : 7919 et 23220, 7919 et 25298, 16622 et 23220, 19064 et 23220, 16622 et 
10 25298, 19064 et 25298, 23220 et 24872, 23220 et 26857, 24872 et 25298, 25298 et 
26857. 

La pr6sente invention a egalement pour objet des amorces d'au 
moins 1 8 bases aptes a amplifier un fragment du genome d'un coronavirus associ6 au 
SRAS ou de l'equivalent ADN de celui-ci. 
15 Selon un mode de realisation desdites amorces, elles sont selection- 

nees dans le groupe constitue par : ... 

- la paire d' amorces n° 1 correspondant respectivement aux positions 
28507 a 28522 (amorce sens, SEQ ID NO : 60) et 28774 a 28759 (amorce anti-sens, 
SEQ ID NO : 61) de la sequence du polynucleotide tel que defini ci-dessus, et 
20 - la paire d'amorces n° 2 correspondant respectivement aux positions 

28375 a 28390 (amorce sens, SEQ ID NO : 62) et 28702 a 28687 (amorce anti-sens, 
SEQ ID NO : 63) de la sequence du polynucleotide tel que defini ci-dessus. 

La presente invention a egalement pour objet une sonde apte a 
detecter la presence du genome d'un coronavirus associe au SRAS ou d'un fragment 
25 de celui-ci, caracterisee en ce qu'elle est selectionnee dans le groupe constitue par : les 
fragments tels que definis ci-dessus et les fragments correspondant aux positions 
suivantes de la sequence du polynucleotide tel que defini ci-dessus : 28561 a 28586, 
28588 a 28608, 28541 a 28563 et 28565 a 28589 (SEQ ID NO : 64 a 67). 

Les sondes et amorces selon l'lnvention peuvent etre marquees 
30 directement ou indirectement par un compose radioactif ou non radioactif par des 
methodes bien connues de l'Homme du Metier, afin d'obtenir un signal detectable 
et/ou quantifiable. Parmi les isotopes radioactifs utilises, on peut citer le 32 P, le 33 P, le 
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35 S, le 3 H ou P ,25 I. Les entites non radioactives sont selectionnSes parmi les ligands 
tels que la biotine, 1'avidine, la streptavidine, la digoxygenine, les haptenes, les colo- 
rants, les agents luminescents tels que les agents radioluminescents, chemolumines- 
cents, bioluminescents, fluorescents, phosphorescents. 
5 L'invention englobe les sondes et les amorces marquees derivees des 

sequences prec6dentes. 

De telles sondes et amorces sont utiles pour le diagnostic de 
Tinfection par un coronavirus assocte au SRAS. 

La prSsente invention a Sgalement pour objet une methode de detec- 
10 tion d'un coronavirus associe au SRAS, a partir d'un 6chantillon biologique, laquelle 
methode est caracterisee en ce qu'elle comprend au moins : 

(a) Textraction decides nucleiques presents dans ledit echantillon 

biologique, 

(b) ramplification d'un fragment de l'ORF-N par RT-PCR a l'aide 
1 5 d'une paire d 5 amorces telle que definie ci-dessus, et 

(c) la detection par tout moyen approprie des produits 
d'amplifications obtenus en (b). 

Les produits d'amplifications (amplicons) en (b) sont de 268 pb pour 
la paire d'amorces n° 1 et de 328 pb pour la paire d'amorces n°2. 

20 Selon un mode de mise en oeuvre avantageux dudit proced6, Fetape 

(b) de detection est realisee a l'aide d'au moins une sonde correspondant aux positions 
28561 & 28586, 28588 a 28608, 28541 a 28563 et 28565 a 28589 de la sequence du 
polynucleotide tel que defini ci-dessus. 

De preference, le genome du coronavirus associe au SRAS est 

25 detecte et 6ventuellement quantifie par PCR en temps reel, a l'aide de la paire 
d'amorces n°2 et des sondes correspondant aux positions 28541 a 28563 et 28565 a 
28589 marquees avec des composes diff&rents, notamment des agents fluorescents 
differents. 

La RT-PCR en temps reel qui met en oeuvre cette paire d'amorces et 
30 cette sonde est tres sensible puisqu'elle permet de detecter 1 0 2 copies d'ARN et jusqu'a 
1 0 copies d ! ARN, elle est en outre fiable et reproductible. 
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L'invention englobe les polydesoxyribonucleotides et les polyribo- 
nucleotides simple-brin, double-brin et tripe-brin correspondant a la sequence du 
genome de la souche isolee de coronavirus et de ses fragments tels que definis ci- 
dessus, ainsi qu'a leurs sequences complementaires, sens ou anti-sens, notamment les 
5 ARN et les ADNc correspondant a la sequence du genome et de ses fragments tels que 
definis ci-dessus. 

La presente invention englobe egalement les fragments 
d'amplification obtenus a Paide d'amorces sp6cifiques du genome de la souche puri- 
fiee ou isolee tel que dSfini ci-dessus, notamment a Paide d' amorces et de paires 

10 d'amorces telles que d6finies ci-dessus, les fragments de restriction constitues par ou 
comprenant la sequence des fragments tels que definis ci-dessus, les fragments obte- 
nus par transcription in vitro a partir d'un vecteur contenant la sequence SEQ ID NO : 
1 ou un fragment tel que d6fini ci-dessus, ainsi que des fragments obtenus par 
synthese chimique. Des exemples de fragments de restriction sont deduits de la carte 

15 de restriction de la sequence SEQ ID NO : 1 illustree par la figure 13. Conformement 
a P invention lesdits fragments sont, soit sous forme de fragments isol6s, soit sous 
forme de melanges de fragments. L'invention englobe egalement les fragments modi- 
fies, par rapport aux precedents, par enlevement, ou addition de nucleotides dans une 
proportion d' environ 15 %, par rapport a la longueur des fragments ci-dessus et/ou 

20 modifies au niveau de la nature des nucleotides, des lors que les fragments nucleo- 
tidiques modifies conservent une capacite d'hybridation avec les sequences d'ARN 
gdnomiques ou antig6nomiques de Fisolat tel que defini ci-dessus. 

Les molecules d'acide nucleique selon l'invention sont obtenues par 
les methodes classiques, connues en elles-memes, en suivant les protocoles standards 

25 tels que ceux decrits dans Current Protocols in Molecular Biology (Frederick At. 
. AUSUBEL,2000, Wiley and son Inc, Library of Congress, USA). Par exemple, elles 
peuvent etre obtenues par amplification d r une sequence nucleique par PCR ou RT- 
PCR ou bien par synthese chimique totale ou partielle. 

La prdsente invention a 6galement pour objet unc puce ou filtre a 

30 ADN ou a ARN, caracterise en ce qu'il comprend au moins un polynucleotide ou Tun 
de ses fragments tels que definis ci-dessus. 

Les puces ou filtres a ADN ou a ARN selon P invention sont 
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pr6pares par les methodes classiques, connues en elles-memes, comme par exemple 
greffage chimique ou electrochimique ^oligonucleotides sur support de verre ou de 
nylon. 

La pr6sente invention a egalement pour objet un vecteur de clonage 
5 et/ou depression recombinant, notamment un plasmide ou un phage comprenant un 
fragment d'acide nucleique tel que defini ci-dessus. De preference, ledit vecteur 
recombinant est un vecteur depression dans lequel ledit fragment d'acide nucleique 
est place sous le controle d'&ements regulateurs de la transcription et de la traduction 
appropries. En outre, ledit vecteur peut comprendre des sequences (etiquettes ou tag) 
10 fusionnees en phase avec Textremite 5 1 et/ou 3' dudit insert, utiles pour Timmobilisa- 
tion, et/ou la detection et/ou la purification de la proteine exprim6e a partir dudit 
vecteur. 

Ces vecteurs sont construits et introduits dans des cellules hotes par 
les methodes classiques d'ADN recombinant et de g6nie genetique, qui sont connues 

J 5 en elles-memes. De nombreux vecteurs dans lesquels on peut inserer une molecule 
d'acide nucleique d'interet afin de Pintroduire et de la maintenir dans une cellule hote, 
sont connus en eux-memes ; le choix d'un vecteur approprie depend de l'utilisation 
envisagee pour ce vecteur (par exemple replication de la sequence d'interet, expres- 
sion de cette sequence, maintien de la sequence sous forme extrachromosomique ou 

20 bien integration dans le materiel chromosomique de 1'hote), ainsi que de la nature de la 
cellule hote. 

Conforcnement a l'invention, ledit plasmide est notamment selec- 
tionne parmi les plasmides suivants : 

- le plasmide, denomm<§ SARS-S, compris dans la souche bacte- 
25 rienne dSposee sous le n° 1-3059, le 20 juin 2003, aupres de la Collection Nationale de 
Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15 ; il 
contient la sequence d'ADNc codant pour la proteine S de la souche de SARS-CoV 
issue du prelevement r6pertori6 sous le n° 031589, laquelle sequence correspondant 
aux nucleotides des positions 21406 a 25348 (SEQ ID NO : 4), en reference a la 
30 sequence Genbank AY2741 19.3, 

- le plasmide, denomme SARS-S 1, compris dans la souche bact6~ 
rienne d6pos6e sous le n° 1-3020, le 12 mai 2003, aupres de la Collection Nationale de 
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Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15 ; il 
contient un fragment 5' de la sequence d'ADNc codant pour la proteine S de la souche 
de SARS-CoV issue du prelevement repertorie sous le n° 031589, telle que definie ci- 
dessus, lequel fragment correspondant aux nucleotides des positions 21406 a 23454 

5 (SEQ ID NO :5), en reference a la sequence Genbank AY2741 1 9.3 Tor2, 

- le plasmide, denomme SARS-S2, compris dans la souche bacte- 
rienne depos6e sous le n° 1-3019, le 12 mai 2003, aupres de la Collection Nationale de 
Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15 ; il 
contient un fragment 3'de la sequence d'ADNc codant pour la prot6ine S de la souche 

1 0 de SARS-CoV issue du prelevement repertorie sous le n° 03 1 589, telle que definie ci- 
dessus, lequel fragment correspondant aux nucleotides des positions 23322 a 25348 
(SEQ ID NO :6), en reference a la sequence Genbank n° d'acces AY2741 19.3, 

- le plasmide, denomnnS SARS-SE, compris dans la souche bacte- 
rienne depos6e sous le n° 1-3126, le, 13 novembre 2003, aupres de la Collection 

15 Nationale de Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris 
Cedex 15; il contient l'ADNc correspondant a la region situee entre l'ORF-S et 
l'ORF-E et chevauchant l'ORF-E de la souche de SARS-CoV issue du prelevement 
repertorie sous le n° 031589, telle que definie ci-dessus, laquelle region correspondant 
aux nucleotides des positions 25110 a 26244 (SEQ ID NO :8), en reference a la 

20 sequence Genbank n° d'acces AY2741 1 9.3, 

- le plasmide, denomm6 SARS-E, compris dans la souche bacte- 
rienne d6pos6e sous le n° 1-3046, le 28 mai 2003, aupres de la Collection Nationale de 
Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15 ; il 
contient la sequence d'ADNc codant pour la proteine E de la souche de SARS-CoV 

25 issue du prelevement repertorie sous le n° 03 1 589, telle que definie ci-dessus, laquelle 
sequence correspondant aux nucleotides des positions 26082 a 26413 (SEQ ID 
NO :15), en reference a la sequence Genbank n° d'acces AY2741 1 9.3, 

- le plasmide, d6nomme SARS-M ; compris dans la souche bact<§- 
rienne deposee sous le n° 1-3047, le 28 mai 2003, aupres de la Collection Nationale de 

30 Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15 ; il 
contient la sequence d'ADNc codant pour la proteine M de la souche de SARS-CoV 
issue du prelevement repertori6 sous le n° 031589, telle que definie ci-dessus; 



13 

laquelle s6quence correspondant aux nucleotides des positions 26330 a 27098 (SEQ 
ID NO :1 8), en reference a la sequence Genbank n° d'acces AY2741 1 93, 

- le plasmide denomme SARS-MN, compris dans la souche bacte- 
rienne deposee sous le n° 1-3125, le 13 novembre 2003, aupres de la Collection 

5 Nationale de Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris 
Cedex 15 ; il contient la sequence d'ADNc correspondant a la region situee entre 
PORF-M et I'ORF-N de la souche de SARS-CoV issue du prelevement repertory 
sous le n° 031589 et prelevee a Hanoi, telle que definie ci-dessus, laquelle sequence 
correspondant aux nucleotides des positions 26977 a 2821 8 (SEQ ID NO :20), en refe- 

1 0 rence a la sequence Genbank n° d'acces AY2741 1 9.3, 

- le plasmide denomme SARS-N, compris dans la souche bacte- 
rienne deposee sous le n° 1-3048, le 5 juin 2003, aupres de la Collection Nationale de 
Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15 ; il 
contient TADNc codant pour la proteine N de la souche de SARS-CoV issue du 

15 prelevement repertorie sous le n° 031589, telle que definie ci-dessus, laquelle 
sequence correspondant aux nucl6otides des positions 28054 a 29430 (SEQ ID 
NO :38), en reference a la sequence Genbank n° d'acces AY2741 19.3, 

- le plasmide denomme SARS-5'NC, compris dans la souche bacte- 
rienne depos6e sous le n° I- 3124, le 7 novembre 2003, aupres de la Collection 

20 Nationale de Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris 
Cedex 15 ; il contient PADNc correspondant k Pextremite 5'non codante du genome 
de la souche de SARS-CoV issue du prelevement r6pertorie sous le n° 031589, telle 
que ddfinie ci-dessus, laquelle sequence correspondant aux nucleotides des positions 1 
a 204 (SEQ ID NO :39), en r6ference a la sequence Genbank n° d'acces AY2741 19.3, 

25 - le plasmide d6nomme SARS-3'NC, compris dans la souche bacte- 

rienne deposee sous le n° 1-3123 le 7 novembre 2003, aupres de la Collection 
Nationale de Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris 
Cedex 15. ; il contient la sequence d'ADNc correspondant a Textremite 3'non codante 
du g6nome de la souche de SARS-CoV issue du prelevement r6pertorie sous le n° 

30 031589, telle que definie ci-dessus, laquelle sequence correspondant a celle situ<§e 
entre le nucleotide en position 28933 h 29727 (SEQ ID NO :40), en reference a la 
sequence Genbank n° d'acces AY2741 1 9.3, se termine par une s6rie de nucleotides a., 



14 

- le plasmide d'expression denomm6 pIV2.3N, contenant un 
fragment d'ADNc codant pour une fusion C-tenninale de la proteine N (SEQ ID NO : 
37) avec une etiquette polyhistidine, 

- le plasmide d'expression denomme pIV2.3Sc, contenant un 
fragment d'ADNc codant pour une fusion C-terminale du fragment correspondant aux 
positions 475 a 1193 de la sequence en acides amines de la proteine S (SEQ ID NO : 
3) avec une Etiquette polyhistidine, 

- le plasmide d'expression pIV2.3S L , contenant un fragment 
d'ADNc codant pour une fusion C-terminale du fragment correspondant aux positions 
14 a 1 193 de la sequence en acides amines de la proteine S (SEQ ID NO : 3) avec une 

etiquette polyhistidine, 

- le plasmide d'expression denomme plV2.4N, contenant un 
fragment d'ADNc codant pour une fusion N-terminale de la proteine N (SEQ ID NO : 
3) avec une etiquette polyhistidine, 

- le plasmide d'expression denomme pIV2.4S c ou pF/2.4S], 
contenant un insert codant pour une fusion N-terminale du fragment correspondant 
aux positions 475 a 1193 de la sequence en acides amines de la proteine S (SEQ ID 
NO : 3) avec une etiquette polyhistidine, et 

- le plasmide d'expression denomme prV2.4S L contenant un 
fragment d'ADNc codant pour une fusion N-terminale du fragment correspondant aux 
positions 14 a 1 193 de la sequence en acides amines de la prot6ine S (SEQ ID NO : 3) 
avec une etiquette polyhistidine. 

Selon une disposition avantageuse du plasmide d'expression tel que 
defini ci-dessus, il est compris dans une souche bacterienne qui a ete deposee sous le 
n° I- 3117, le 23 octobre 2003, aupres de la Collection Nationale de Cultures de 
Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15. 

Selon une autre disposition avantageuse du plasmide d'expression 
tel que defini ci-dessus, il est compris dans une souche bacterienne qui a ete deposee 
sous le n° I- 3118, le 23 octobre 2003, aupres de la Collection Nationale de Cultures 
de Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15. 

La pr6sente invention a egalement pour objet une banque d'ADNc 
caracterisee en ce qu'elle comprend des fragments tels que defmis ci-dessus, en parti- 
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culier des fragments d'amplification ou des fragments de restriction, clones dans un 
vecteur recombinant, notamment un vecteur d'expression (banque d'expression). 

La presente invention a egalement pour objet des cellules, notam- 
ment des cellules procaryotes, modifies par un vecteur recombinant tel que defini ci- 
5 dessus. 

Les vecteurs recombinants tels que definis ci-dessus et les cellules 
transformees par lesdits vecteurs d'expression sont avantageusement utilises pour la 
production des proteines et des peptides correspondants. Les banques d' expression 
d6rivees desdits vecteurs, ainsi que les cellules transformees par lesdites banques 

10 d'expression sont avantageusement utilisees pour identifier les epitopes immunogenes 
(epitopes B et T) des proteines du coronavirus associe au SRAS. 

La presente invention a egalement pour objet les proteines et les 
peptides purifiees ou isolees, caracteris6s en ce qu'ils sont codes par le polynucleotide 
ou Tun de ses fragments tels que definis ci-dessus. 

15 Selon un mode de realisation avantageux de l'invention, ladite 

proteine est selectionnee dans le groupe constitue par : 

- la proteine S de sequence SEQ ID NO :3 

- la proteine E de sequence SEQ ID NO :14 

- la proteine M de sequence SEQ ID NO :17 
20 - la proteine N de sequence SEQ ID NO : 37 

- les proteines codees par les ORFs : ORFla, ORFlb, ORF3, ORF4 
et ORF7 a ORF1 1, ORF13 et ORF14 de sequence respectivement, SEQ ID NO :74, 
75, 10, 12, 22, 24, 26, 28, 30, 33 et 35. 

Selon un mode de realisation avantageux de l'invention, ledit 
25 peptide est selectionne dans le groupe constitue par : 

a) les peptides correspondant aux positions 14 a 1 193 et 475 a 1 193 
de la sequence en acides amin6s de la proteine S, 

b) les peptides correspondant aux positions 2 a 14 (SEQ ID NO : 69) 
et 100 a 221 de la sequence en acides amines de la proteine M ; ces peptides corres- 

30 pondent respectivement a l'ectodomaine et a Fendodomaine de la proline M, et 

c) les peptides correspondant aux positions 1 a 12 (SEQ ID NO : 70) 
et 53 a 76 (SEQ ID NO : 71) de la sequence en acides amines de la proteine E ; ces 
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peptides correspondent respectivement a l'ectodomaine et a l'extremit6 C-tenninale de 
la proteine E, et 

d) les peptides de 5 a 50 acides amines consecutifs, de pr6ference de 
10 a 30 acides amines, inclus ou cbevauchant partiellement ou totalement la sequence 
5 des peptides tels que definis en a), b) ou c). 

La presente invention a 6galement pour objet un peptide caracterise 
en ce qu'il presente une sequence de 7 a 50 acides amines incluant un residu d'acide 
amin6 selectionne dans le groupe constitue par : 

- l'alanine situee en position 2552 de la sequence en acides amines 

10 de la proteine codee par l'ORF 1 a. 

- la serine situee en position 577 de la sequence en acides amines de 
la prot6ine S de la souche de SARS-CoV telle que definie ci-dessus, 

- la glycine en position 11 de la sequence en acides amines de la 
proteine codee par 1' ORF3 de la souche de SARS-CoV telle que d6finie ci-dessus, 

15 . . la serine ^ position 154 de la sequence en acides amines de la 

proteine M de la souche de SARS-CoV telle que definie ci-dessus. 

La presente invention a egalement pour objet un anticorps ou un 
fragment d'anticorps polyclonal ou monoclonal, susceptible d'etre obtenu par 
immunisation d'un animal avec un vecteur recombinant tel que defini ci-dessus, une 

20 banque d'ADNc telle que definie ci-dessus ou bien une proteine ou un peptide tels que 
d6finis ci-dessus, caracterise en ce qu'il se lie avec l'une au moins des prolines 
codees par le SARS-CoV telles que d6finies ci-dessus. 

L'invention englobe les anticorps polyclonaux, les anticorps mono- 
clonaux, les anticorps chimeriques tels que les anticorps humanises, ainsi que leurs 

25 fragments (Fab, Fv, scFv). 

Au sens de la presente invention, on entend par anticorps 
chimerique, relativement a un anticorps d'une espece animale particuliere ou d'une 
classe particuliere d'anticorps, un anticorps comprenant tout ou partie d'une chaine 
lourde et/ou d'une chaine 16gere d'un anticorps d'une autre espece animale ou d'une 

30 autre classe d'anticorps. 

Au sens de la presente invention, on entend par anticorps humanise 
une immmunoglobuline humaine dans laquelle les residus des CDRs 
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(Complementary-Determining Regions) qui forment Ie site de liaison a l'antigene sont 
remplac£s par ceux d'un anticorps monoclonal non-humain possedant la specificite, 
Taffinite ou l'activite recherchees. Par comparaison avec les anticorps non-humains, 
les anticorps humanises sont moins immunogenes et possedent une demi-vie prolon- 
gee chez l'Homme car ils ne possedent qu'une faible proportion de sequences non- 
humaines etant donne que la quasi-totalite des residus des regions FR (Framework) et 
de la region constante (Fc) de ces anticorps sont ceux d ! une sequence consensus 
d'immunoglobulines humaines. 

La presente invention a egalement pour objet une puce a proteine, 
caracterisee en ce qu'elle comprend une prot6ine, un peptide ou bien un anticorps tels 
que definis ci-dessus. 

Les puces a proteine selon Tinvention sont preparees par les 
methodes classiques, connues en elles-memes. Parmi les supports appropries sur 
lesquels peuvent etre immobilises des prot6ines, on peut citer ceux en matiere 
plastique ou en vexre, notamment sous la forme de microplaques. 

La presente invention a egalement pour objet des reactifs derives de 
la souche isolee de coronavirus associe au SRAS, issue du prelevement repertorie sous 
le n° 031589, utiles pour F6tude et le diagnostic de Tinfection provoqu^e par un 
coronavirus associe au SRAS, lesquels reactifs sont selectionnes dans le groupe cons- 
tituepar : 

(a) une paire d'amorces, une sonde ou une puce a ADN telles que 
definies ci-dessus, 

(b) un vecteur recombinant ou une cellule modifiee tels que definis 

ci-dessus, 

(c) une souche isolee de coronavirus ou un polynucleotide tels que 

d6finis ci-dessus, 

(d) une proteine ou un peptide tel que defini ci-dessus, 

(e) un anticorps ou fragment d'anticorps tels que d6finis ci-dessus, et 

(f) une puce a proline telle que definie ci-dessus. 

Ces differents reactifs sont prepares et utilises selon les techniques 
classiques dc biologie moteculaire et d'immunologie, en suivant les protocoles 
standards tels que ceux decrits dans Current Protocols in Molecular Biology 
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(Frederick M. AUSUBEL, 2000, Wiley and Son Inc., Library of Congress, USA), 
dans Current Protocols in Immunology (John E. Cologan, 2000, Wiley and Son Inc. 
Library of Congress, USA) et dans Antibodies : A Laboratory Manual (E. Howell and 
D Lane, Cold Spring Harbor Laboratory, 1988). 

Les fragments d'acide nucl&que selon l'invention sont prepares et 
utilises selon les techniques classiques telles que definies ci-dessus. Les peptides et les 
prot6ines selon l'invention sont prepares par les techniques d'ADN recombinant, 
connues de l'Homme du metier, notamment a 1'aide des vecteurs recombinants tels 
que dSfinis ci-dessus. Alternativement, les peptides selon Invention peuvent etre 
prepares par les techniques classiques de synthese en phase solide ou liquide, connues 
de l'Homme du m6tier. 

Les anticorps polyclonaux sont prepar6s par immunisation d'un 
animal approprie avec une proline ou un peptide tels que definis ci-dessus, eventuel- 
lement couple a la KLH ou a l'albumine et/ou associe a un adjuvant approprie tel que 
1'adjuvant de Freund (complet ou incomplet) ou lliydroxyde d'alumine ; apres obten- 
tion d'un titre en anticorps satisfaisant, les anticorps sont recoltes par prelevement du 
serum des animaux immunises et enrichis en IgG par precipitation, selon les 
techniques classiques, puis les IgG specifiques des proteines du SARS-CoV sont 
eventuellement purifiees par chromatographic d'affinite sur une colonne appropriSe 
sur laquelle sont fixes ledit peptide ou ladite proteine, tels que definis ci-dessus, de 
fa<?on a obtenir une preparation d'IgG monospecifiques. 

Les anticorps monoclonaux sont produits a partir d'hybridomes 
obtenus par fusion de lymphocytes B d'un animal immunise par une prot&ne ou un 
peptide tels que definis ci-dessus avec des myotomes, selon la technique de Kohler et 
Milstein (Nature, 1975, 256, 495-497) ; les hybridomes sont cultives in vitro, notam- 
ment dans des fermenteurs ou produits in vivo, sous forme d'ascite ; alternativement 
lesdits anticorps monoclonaux sont produits par genie genetique comme decrit dans le 
brevet americain US 4,816,567. 

Les anticorps humanisms sont produits par des methodes generates 
comme celles decrites dans la Demande Internationale WO 98/45332. 

Les fragments d'anticorps sont produits a partir des regions V H et 
V L donees, a partir des ARNm d T hybridomes ou de lymphocytes spleniques d'une 
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souris immunisee ; par exemple, les fragments Fv, scFv ou Fab sont exprimSs a la 
surface de phages filamenteux selon la technique de Winter et Milstein (Nature, 1 991 , 
349, 293-299) ; apres plusieurs etapes de selection, les fragments d'anticorps 
specifiques de l'antigene sont isoles et exprimes dans un systeme d'expression appro- 
5 prie, par les techniques classiques de clonage et d'expression d'ADN recombinant. 

Les anticorps ou leur fragments tels que definis ci-dessus, sont 
purifies par les techniques classiques connues de THomme du metier, telles que la 
chromatographic d ! affinit6. 

La presente invention a en outre pour objet l'utilisation d'un produit 

10 selectionne dans le groupe constitue par : une paire d' amorces, une sonde, une puce a 
ADN, un vecteur recombinant, une cellule modifiee, une souche isolee de coronavirus, 
un polynucleotide, une proteine ou un peptide, un anticorps ou un fragment 
d'anticorps, et une puce a proteine tels que definis ci-dessus, pour la preparation d'un 
reactif de detection et eventuellement de genotypage/serotypage, d'un coronavirus 

1 5 associe au SRAS. 

Les proteines et les peptides selon l'invention, qui sont aptes a etre 
reconnus et/ou a induire la production d'anticorps specifiques du coronavirus associe 
au SRAS, sont utiles pour le diagnostic de P infection par un tel coronavirus ; 
1 5 infection est detectee, par une technique appropri6e- notamment EIA, ELISA, RIA, 

20 immunofluorescence-, a partir d'un echantillon biologique preleve chez un individu 
susceptible d'etre infecte. 

Selon une disposition avantageuse de ladite utilisation, lesdites 
prot6ines sont selectionnees dans le groupe constitu6 par les proteines S, E, M et/ou N 
et les peptides tels que definis ci-dessus. 

25 Les proteines S, E, M et/ou N et les peptides d6rives de ces proteines 

tels que definis ci-dessus, par exemple la proline N, sont utilis6es pour le diagnostic 
indirect d'une infection a coronavirus associe au SRAS (diagnostic serologique ; 
detection d' anticorps specifiques du SARS-CoV), notamment par une methode 
immunoenzymatique (ELISA). 

30 Les anticorps et les fragments d'anticorps selon Pinvcntion, 

notamment ceux diriges contre les prolines S, E, M et/ou N et les peptides derives 
tels que definis ci-dessus, sont utiles pour le diagnostic direct d'une infection a coro- 
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navirus associe au SRAS ; la detection de protdine(s) du SARS-CoV est realisee par 
une technique appropriee, notamment EIA, ELISA, RIA, immunofluorescence a partir 
d'un echantillon biologique pr&eve chez un individu susceptible d'etre infecte. 

La presente invention a 6galement pour objet une methode de detec- 
tion d'un coronavirus associe au SRAS, a partir d'un echantillon biologique, laquelle 
methode est caracterisee en ce qu'elle comprend au moins : 

(a) la mise en contact dudit echantillon biologique avec au moins un 
anticorps ou un fragment d'anticorps, une proteine, un peptide ou bien une puce ou un 
filtre h proteine ou a peptide tels que definis ci-dessus, et 

(b) la revelation par tout moyen approprie des complexes antigene- 
anticorps formes en (a), par exemple par E1A, ELISA, RIA, ou par immunofluores- 



cence. 



Selon un mode de mise en oeuvre avantageux dudit procede l'etape 

(a) comprend : 

(ai) la mise en contact dudit echantillon biologique avec au moins un 
premier anticorps ou uh fragment d'anticorps qui est fixe sur un support approprie, 
notamment une microplaque, 

(a 2 ) le lavage de la phase solide, et 

(a 3 ) 1' addition d'au moins un second anticorps ou un fragment 
d'anticorps, different du premier, ledit anticorps ou fragment d'anticorps etant 
eventuellement marque de facon appropriee. 

Ce proced6 qui permet de capturer les particules virales pr6sentes 
dans l'echantillon biologique est egalement d6nomme procede d'immunocapture. 

Par exemple : 

- l'etape (ai) est realisee avec au moins un premier anticorps mono- 
clonal ou polyclonal, ou.un fragment de ceux-ci, dirige contre la proteine S, M, et/ou 
E, et/ou un peptide correspondant a l'ectodomaine de l'une de ces prot6ines (peptides 
M2-14ouEl-12) 

- l'etape (a 3 ) est realis6e avec au moins un anticorps ou un fragment 
d'anticorps dirig6 contre un autre epitope de la meme protdine ou de preference contre 
une autre prot6ine, de maniere prefer6e contre une proteine interne telle que la nucleo- 
proteine N ou l'endodomaine de la prot6ine E ou M, de maniere encore plus preferee 
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il s'agit d'anticorps ou de fragments d'anticorps dirigSs contre la prot&ne N qui est 
tres abondante dans la particule virale ; lorsqu'un anticorps ou un fragment 
d'anticorps dirige contre une proteine interne (N) ou contre l'endodomaine des 
proteines E ou M est utilise, le dit anticorps est incub6 en presence de detergent, 
5 comme le Tween 20 par exemple, a des concentrations de l'ordre de 0,1 %. 

- Petape (b) de revelation des complexes antigene-anticorps formes 
est r6alisee, soit directement a l'aide d'un second anticorps marque par exemple avec 
de la biotine ou une enzyme appropriSe telle que la peroxydase ou la phosphatase 
alcaline, soit indirectement a Faide d'un s6rum anti-immunoglobulines marqu6 
10 comme ci-dessus. Les complexes ainsi formes sont r6veles a l'aide d'un substrat 
approprie. 

La presente invention a en outre pour objet un kit de detection d'un 
coronavirus associe au SRAS, caracterise en ce qu'il comprend au moins un reactif 
selectionne dans le groupe constitue par : une paire d'amorces, une sonde, une puce a 
15 ADN ou a ARN, un vecteur recombinant, une cellule modifiee, une souche isolee de 
coronavirus, un polynucleotide, une proteine ou un peptide, un anticorps, et une puce a 
proteine tels que definis ci-dessus. 

La presente invention a en outre pour objet, une composition 
immunog&ne, caracterisee en ce qu'elle comprend au moins un produit selectionne 
20 dans le groupe constitue par : 

a) une proteine ou un peptide tels que definis ci-dessus, 

b) un polynucleotide de type ADN ou ARN ou Tun de ses fragments 
representatifs tels que definis ci-dessus, de s6quence choisie parmi : 

(i) la sequence SEQ ID NO : 1 ou son equivalent ARN 
25 (ii) la sequence hybridant dans des conditions de forte stringence 

avec la sequence SEQ ID NO : 1, 

(iii) la sequence complementaire de la sequence SEQ ID NO : 1 ou 
de la sequence hybridant dans des conditions de forte stringence avec la sequence 
SEQ ID NO: 1, 

30 (iv) la sequence nucl6otidique d'un fragment representatif du poly- 

nucleotide tel que defini en (i), (ii) ou (iii), 

(v) la sequence telle que d6finie en (i), (ii), (iii) ou (iv), modiftee, et 
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c) un vecteur d' expression recombinant comprenant un 

polynucleotide tel que d6fmi en b), et 

d) une banque d 5 ADNc telle que definie ci-dessus, 

ladite composition immunogene etant capable d'induire une immunite humorale ou 
5 cellulaire protectrice specifique du coronavirus associ6 au SRAS, notamment la 
production d'un anticorps dirige contre un epitope sp6cifique du coronavirus associe 
au SRAS. 

Les proteines et les peptides tels que definis ci-dessus, notamment 
les proteines S, M, E etfou N et les peptides derives, ainsi que les molecules d'acide 
10 nucleique (ADN ou ARN) codant lesdites proteines ou lesdits peptides, sont de bons 
candidats vaccin et peuvent etre utilisees dans des compositions immunog^nes pour la 
production d'un vaccin contre le coronavirus associe au SRAS. 

Selon un mode de realisation avantageux des compositions selon 
Tinvention, elles contiennent en outre, au moins un vehicule pharmaceutiquement 
1 5 acceptable et eventuellement des substances porteuses et/ou des adjuvants. 

Les vehicules pharmaceutiquement acceptables, les substances 
porteuses et les adjuvants sont ceux classiquement utilises. 

Les adjuvants sont avantageusement choisis dans le groupe constitue 
par des emulsions huileuses, de la saponine, des substances min<§rales, des extraits 
20 bacteriens, de l'hydroxyde d'alumine et le squalene. 

Les substances porteuses sont avantageusement selectionn6es dans 
le groupe constitue par des liposomes unilamellaires, des liposomes multilamellaires, 
des micelles de saponine ou des microspheres solides de nature saccharidique ou 
aurifere. 

25 Les compositions selon Tinvention, sont administrees par voie 

generate, notamment intramusculaire ou sous-cutanee ou bien par voie locale notam- 
ment nasale (aerosol). 

La presente invention a egalement pour objet Tutilisation d*une 
proteine ou d'un peptide isole ou purifie presentant une sequence selectionnee dans le 

30 groupe constitue par les sequences SEQ ID NO : 3, 10, 12, 14, 17, 22, 24, 26, 28, 30, 
33, 35, 37, 69, 70, 71, 74 et 75 pour former un complexe immun avec un anticorps 
dirige specifiquement contre un epitope du coronavirus associe au SRAS. 



23 

La pr6sente invention a egalement pour objet un complexe imimm 
forme d'une proteine ou d'un peptide isole on purifte presentant une sequence selec- 
tionnee dans le groupe constitue par les sequences SEQ ID NO : 3, 10, 12, 14, 17, 22, 
24, 26, 28, 30, 33, 35, 37, 69, 70, 71, 74 et 75, et d'un anticorps dirige specifiquement 
5 contre un Epitope du coronavirus associ6 au SRAS. 

La prdsente invention a egalement pour objet Tutilisation d'une 
proteine ou d'un peptide isole ou purifie presentant une sequence selectionnee dans le 
groupe constitue par les sequences SEQ ID NO : 3, 10, 12, 14, 17, 22, 24, 26, 28, 30, 
33, 35, 37, 69, 70, 71, 74 et 75 pour induire la production d'un anticorps capable de 
10 reconnaitre specifiquement un epitope du coronavirus associS au SRAS. 

La presente invention a 6galement pour objet Putilisation d'un poly- 
nucleotide isole ou purifie presentant une sequence selectionnee dans le groupe 
constitue par les sequences SEQ ID NO : 1, 2, 4, 7, 8, 13, 15, 16', 18, 19, 20, 31, 36 et 
38 pour induire la production d'un anticorps dirige contre la proteine codee par ledit 
15 polynucleotide et capable de reconnaitre specifiquement un Epitope du coronavirus 
associe au SRAS 

Outre les dispositions qui precedent, 1'invention comprend encore 
d'autres dispositions, qui ressortiront de la description qui va suivre, qui se refere a 
des exemples de mise en oeuvre du polynucleotide representant le genome de la 
20 souche de SARS-CoV issue du prelevement r6pertorie sous le numero 031589, et des 
fragments d'ADNc derives objets de la presente invention, ainsi qu'au Tableau I 
presentant la liste des sequences : 



Tableau I : Liste des sequences 



numero 
d'identification 


Sequence 


Position de 
I'ADNc en 

reference a 
Genbank 

AY274119.3 


Numero de 
depot a la CNCM 

du plasmide 
correspondant 


SEQ ID NO : 1 


genome de la 
souche issue du 
prelevement 
031589 






SEQ ID NO : 2 


ORF-S* 


21406-25348 




SEQ ID NO : 3 


Proteine S 






SEQ ID NO : 4 


ORF-S** 


21406-25348 


I-3059 


i SEQ ID NO: 5 


fragment Sa 


21406-23454 


I-3020 
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SEQ ID NO : 6 


fragment Sb 


2OOZZ-Z0O40 




SEQ ID NO : 7 


ORF-3+ORF-4* 


ZOl lU~ZOZ44 




SEQ ID NO : 8 


ORF-3+ORF-4 


251 1 U-ZOZ44 


1 O 1 £~\J I 


SEQ ID NO : 9 


ORF3 






SEQ ID NO: 10 


Proteine ORF-3 






SEQ ID NO : 1 1 


ORF4 






SEQ ID NO: 12 


Proteine ORF-4 






SEQ ID NO : 13 


ORF-E* 


26082-2641 3 




SEQ ID NO : 14 


Proteine E 






SEQ ID NO: 15 


ORF-E** 


26082-26413 


I-OU40 


SEQ ID NO: 16 


ORF-M* 


26330-27098 




SEQ ID NO: 17 


Proteine M 






SEQ ID NO: 18 


ORF-M** 


26330-27098 


f 

l-oU4/ 


SEQ ID NO: 19 


ORF7 a 11* 


26977-28218 




SEQ ID NO : 20 


ORF7 a 11** 


26977-28218 


l-ol Zo 


SEQ ID NO : 21 


ORF7 






SEQ ID NO : 22 


Proteine ORF7 


— 




SEQ ID NO : 23 


ORF8 


— 




SEQ ID NO : 24 


Proteine ORF8 


— 




SEQ ID NO : 25 


ORF9 


— 




SEQ ID NO : 26 


Proteine ORF9 


— 




SEQ ID NO : 27 


ORF10 


— 




SEQ ID NO : 28 


Proteine ORF10 


— 




SEQ ID NO : 29 


ORF11 


- 


: 


SEQ ID NO : 30 


Proteine ORF1 1 


- 




SEQ ID NO: 31 


OrFlab 


265-21 485 


... 


! SEQ ID NO : 32 


ORF13 


28130-28426 


: : — 


SEQ ID NO : 33 


Proteine ORF13 






SEQ ID NO : 34 


ORF14 


- 


- * 


SEQ ID NO : 35 


Proteine ORF14 


28583-28795 


Z 


SEQ ID NO : 36 


ORF-N* 


28054-29430 




SEQ ID NO : 37 


Proteine N 


- 




SEQ ID NO : 38 


ORF-N** 


28054-29430 


t OA/I O 

l-304o 


! SEQ ID NO : 39 


5'non-codante** 


1-204 


1-3124 


I SEQ ID NO : 40 


3'non-codante** 


28933-29727 


1-31 23 


SEQ ID NO : 41 


ORFlab 

Fragment L0 


30-500 




! SEQ ID NO : 42 


Fragment l_"1 


211-2260 




SEQ ID NO . 43 


Cronmont I O 

rragmeru u-^ 


2136-4187 




SEQ ID NO : 44 


Fragment L3 


3892-5344 




SEQ ID NO : 45 


Fragment L4b 


4932-6043 




! SEQ ID NO : 46 


Fragment L4 


5305-7318 




SEQ ID NO : 47 


Fragment L5 


7275-9176 




SEQ ID NO : 48 


Fragment L6 


9032-11086 




SEQ ID NO : 49 


Fragment L7 


! 10298-12982 




1 SEQ ID NO : 50 


Fragment L8 


12815-14854 
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SEQ ID NO : 51 


Fragment L9 


14745-16646 


- 


btQ ID NO : 52 


Fragment L10 


16514-18590 




SEQ ID NO : 53 


Fragment L1 1 


18500-20602 




SEQ ID NO : 54 


Fragment L12 


20319-22224 


- 


SEQ ID NO : 55 


Amorce N sens 






SEQ ID NO : 56 


Amorce N 
antisens 




- 


SEQ ID NO : 57 


Amorce Sc sens 


- 


- 


SEQ ID NO : 58 


Amorce S L sens 






SEQ ID NO : 59 


Amorce S c e t S L 
antisens 


- 


- 


SEQ ID NO : 60 


Amorce sens 
serie 1 


28507-28522 


- 


SEQ ID NO : 61 


Amorce antisens 
serie 1 


28774-28759 




SEQ ID NO : 62 


Amorce sens 
serie 2 


28375-28390 


- 


SEQ ID NO : 63 


Amorce antisens 
serie 2 


28702-28687 


- 


SEQ ID NO : 64 


Sonde 1 /serie 1 


28561-28586 


- 


SEQ ID NO : 65 


Sonde 2/serie 1 


28588-28608 


- 


SEQ ID NO : 66 


Sonde l/serie2 


28541-28563 


- 


SEQ ID NO : 67 


Sonde 2/serie 2 


28565-28589 


- 


SEQ ID NO : 68 


Amorce ancre 
14T 








Peptide M2-14 






SEQ ID NO : 70 


Peptide E1-12 






SEQ ID NO : 71 


Peptide E53-76 






SEQ ID NO : 72 


5'non-codante* 


1-204 




SEQ ID NO : 73 


3'non-codante* 


28933-29727 




SEQ ID NO : 74 


Proteine ORF1a 






SEQ ID NO : 75 


Proteine ORF1b 






SEQ ID NO:76-139 


Amorces 







* produit d'amplification PCR (amplicon) 
** insert clone dans le plasmide depose a la CNCM 
ainsi qu'aux dessins annexes dans lesquels : 



- la figure 1 illustre 1' analyse par Westem-blot de 1' expression in 
5 vitro des proteines recombinantes N, S c et S L a partir des vecteurs depression 

pIVEX. Piste 1 : pIV2.3N. Piste 2 : P rV2.3S c . Piste 3 : pIV2.3S L . Piste 4 : pIV2.4N. 
Piste 5 : pIV2.4S, ou P rV2.4S c . Piste 6 : pIV2.4S L . L' expression de la prot6ine GFP 
exprimde a partir du meme vecteur est utilisee comme contrdle. 

- la figure 2 illustre 1 'analyse par electrophorese en gel de 
0 polyacrylamide en conditions denaturantes (SDS-PAGE) et coloration au bleu de 
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Coomassie, de 1' expression in vivo de la proteine N a partir des vecteurs d' expression 
pIVEX. La souche A'E.coli BL21(DE3)pDIA17 transformee par les vecteurs pIVEX 
recombinants est cultivee a 30°C dans du milieu LB, en presence ou en l'absence 
d'inducteur (IPTG ImM). Piste 1 : pIV2.3N Piste 2 : pIV2.4N. 

- la figure 3 illustre l'analyse par electrophorese en gel de 
polyacrylamide en conditions denaturantes (SDS-PAGE) et coloration au bleu de 
Coomassie, de l'expression in vivo des polypeptides S L et S c a partir des vecteurs 
d'expression pIVEX. La souche d'E.coli BL21(DE3)pDIA17 transformee par les 
vecteurs pIVEX recombinants est cultivee a 30°C dans du milieu LB, en presence ou 
en l'absence d'inducteur (IPTG ImM). Piste 1 : pIV23Sc Piste 2 : prV2.3S L . Piste 3 : 

plV2.4S, Piste 4 : prV2.4S L . 

- la figure 4 illustre l'activite antigenique des proteines N, S L et S c 
recombinantes produites dans la souche E. coli BL21(DE3)pDIA17 transformee par 
les vecteurs pIVEX recombinants. A : electrophorese (SDS-PAGE) des lysats bacte- 
riens.B ct C : Westem-blot avec les serums, provenant d'un meme patient infecte par 
le SARS-CoV, prelev6s respectivement 8 jours (B : serum Ml 2) et 29 jours-(C : 
s6rum Ml 3) apres le debut des sympt6mes du SRAS. Piste 1 : pIV2.3N. Piste 2 : 
pIV2.4N. Piste 3 : pIV2.3Sc. Piste 4 : pW2.4 Si. Piste 5 : prV2.3S L . Piste 6 : prV2.4S L 

- la figure 5 illustre la purification sur colonne Ni-NTA agarose de la 
proteine N recombinante produite dans la souche E. coli BL21(DE3)pDIA17 a partir 
du vecteur pIV2.3N. Piste 1 : Extrait bacterien total. Piste 2 : Extrait soluble. Piste 3 : 
Extrait insoluble. Piste 4 : Extrait depose sur la colonne Ni-NTA. Piste 5 : proteines 
non-retenues. Piste 6 : Fractions du pic 1 . Piste 7 : Fractions du pic 2. 

- la figure 6 illustre la purification de la prot6ine S c recombinante a 
partir des corps d'inclusions produits dans la souche E. coli BL21(DE3)pDlA17 trans- 
formee par le pIV2.4S,.A. Traitement. au Triton X-100 (2%) : Piste 1 : Extrait 
bacterien total. Piste 2 : Extrait soluble. Piste 3 : Extrait insoluble. Piste 4 : Surnageant 
apres traitement au Triton X-100 (2 %). Pistes 5 et 6 : Culot apres traitement au Triton 
X-100 (2 %).B : Traitement a Puree 4M, 5M, 6M et 7M des extraits solubles et inso- 
lubles. 
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- la figure 7 represente rimraunoempreinte realisee a I s aide d'un 
lysat de cellules infectSes par le SARS-CoV et d'un serum de patient atteint de 
pneumopathie atypique. 

- la figure 8 repr6sente des immunoempreintes realises a Taide 
5 d'un lysat de cellules infect6es par le SARS-CoV et d'immunserums de lapins speci- 

fiques de la nucteoproteine N (A) et de la prot6ine de spicule S (B). LS. : serum 
immun. p.i. : serum pre-immun. L'immunserum anti-N a ete utilise au 1/50000 et 
rimmuns6rum anti-S au 1/10000. 

- la figure 9 illustre la rSactivite en ELISA des serums polyclonaux 
10 monospecifiques de lapin dirig£s contre la proteine N ou le fragment court de la 

proline S (S c ), vis-a-vis des proteines recombinantes correspondantes utilisees pour 
rimmunisation. A : lapins P13097, P13081, et P13031 immunises avec la proteine N 
recombinante purifie. B : lapins PI 1135, PI 3042, et P14001 immunises avec une 
preparation de corps d' inclusions correspondants au fragment court de la proteine S 
15 (S c ). LS. : serum immun. pJL : serum pre-immun. 

- la figure 10 illustre la reactivite en ELISA de la proteine N 
recombinante purifiee, vis-a-vis de serum de patients atteints de pneumonie atypique 
causee par le SARS-CoV. Figure 10a : plaques ELISA prepares avec la proteine N a la 
concentration de 4 jig/ml et 2 \ig/mL Figure 10b : plaque ELISA preparee avec la 

20 proteine N a la concentration de 1 iig/mh Les serums designes A, B, D, E, F, G, H 
correspondent a ceux du Tableau IV. 

- la figure 11 illustre 1' amplification par RT-PCR de quantites 
decroissantes d'ARN synthetique du gene N du SARS-CoV (10 7 k 1 copie), a Taide 
des couples d'amorces n° 1 (N/+/28507,N/-/28774) (A) et n° 2 (N/+/28375,N/-/28702) 

25 (B). T : amplification realisee en l'absence d ! ARN. MW : marqueur d'ADN. 

- la figure 12 illustre 1'amplification par RT-PCR en temps r6el 
d l ARN synthetique du gene N du SARS-CoV : des quantites decroissantes dARN 
synthetique en rdpliquat (repli. ; pistes 16 a 29) ainsi que de 1ARN viral dilu6 au 
1/20X10" 4 (piste 32) ont 6te amplifies par RT-PCR en temps reel a Taide du kit "Light 

30 Cycler RNA Amplification Kit Hybridization Probes" et des couples ^amorces et de 
sondes de la s6rie n° 2, dans les conditions decrites h Pexemple 7. 
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- la figurel3 (figure 13.1 a 13.70) represente la carte de restriction 
de la sequence SEQ ID NO : 1 correspondant a l'cquivalent ADN du genome de la 
souche de SARS-CoV issue du prelevement repertori6 sous le numero 031589. 

II doit etre bien entendu, toutefois, que ces exemples sont donnes 
uniquement a titre d' illustration de l'objet de l'invention, dont ils ne constituent en 
aucune maniere une limitation. 

Exemplc 1 : Clonage et sequencage du genome de la souche de SARS-CoV issue 
du prelevement repertorie sous le numero 031589 

L'ARN de la souche de SARS-CoV a ete extrait a partir du prele- 
vement de lavage bronchoalveolaire repertorie sous le numero 031 589, effectue sur un 
patient de l'hopital francais de Hanoi (Vietnam) atteint de SRAS. 

L'ARN isole a &e utilise comme matrice pour amplifier les ADNc 
correspondant aux differents cadres ouverts de lecture du genome (ORF la, ORFlb, 
ORF-S, ORF-E, ORF-M, ORF-N (incluant les ORF-13 et ORF-14), ORF3, ORF4, 
ORF7 a ORF 11), et aux extremites 5' et 3' non-codantes. Les sequences des amorces 
et des sondes utilisees pour 1' amplification/detection ont 6te d6finies d'apres la 
sequence nucleotidique disponible du SARS-CoV. 

Dans ce qui suit les amorces et les sondes sont identifies par : la 
lettre S, suivie d'une lettre qui indique la region correspondante du g6nome (L pour 
l'extr6mite 5'incluant ORFla et ORFlb ; S, M et N pour les ORF-S, ORF-M, ORF-N, 
SE et MN pour les regions intergeniques correspondantes), puis eventuellement de Fn, 
Rn, avec n inclus entre 1 et 6 correspondant aux amorces utilis6es pour la PCR nichee 
ou imbriqu6e (paire Fl + Rl pour la premiere amplification, paire F2 + R2 pour la 
deuxieme amplification, etc. . .), puis de /+/ ou /-/ correspondant a une amorce sens ou 
antisens et enfin des positions des amorces en reference a la sequence Genbank 
AY27411.3 ; pour les amorces S et N sens et antisens et les autrcs amorces sens 
uniquement, lorsqu'une seule position est indiqu^e elle correspond a celle de 
l'extr&nit6 5' d'une sonde ou d'une amorce d'environ 20 bases ; pour les amorces 
antisens autres que les amorces S et N, lorsqu'une seule position est indiquee elle 
correspond a celle de l'extremite 3' d'une sonde ou d'une amorce d'environ 20 bases. 

Les produits d'amplifications ainsi g6ner6s ont 6te sequences a 
Taide d' amorces sp6cifiques afin de determiner la sequence complete du genome de la 
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souche de SARS-CoV issue du prelevement repertory sous le numero 031589. Ces 
produits d' amplification, a r exception de ceux correspondant aux ORFla et ORFlb, 
ont ensuite ete clones dans des vecteurs depression afin de produire les proteines 
virales correspondantes et les anticorps diriges contre ces prolines, notamment par 
5 immunisation a base d'ADN. 

1, Extraction des ARN 

Les ARN ont ete extraits a Taide du kit QIamp viral RNA extraction 
mini (QIAGEN) en suivant les recommandations du fabricant. De maniere plus 
precise : 140 \i\ du prelevement et 560 pi de tampon AVL ont et6 melanges vigoureu- 

10 sement pendant 15 secondes, incubes 10 min a temperature ambiante puis centrifuges 
brievement k vitesse maximale. 560 jil d'ethanol a 100% ont ete ajoutes au surnageant 
et le melange ainsi obtenu a ete agite tres vigoureusement pendant 15 sec. 630 pi du 
melange ont ensuite ete deposes sur la colonne. 

La colonne a ete placee sur un tube de 2 ml, centrifugee 1 min k 

15 8000 rpm, puis le reste du melange precedent a ete depose sur la raeme colonne, 
centrifuge a nouveau, 1 min a 8000 rpm et la colonne a ete transferee sur un tube de 2 
ml propre. Ensuite, 500 pi de tampon AW1 ont 6te ajoutes sur la colonne, puis la 
colonne a et6 centrifugee 1 min a 8000 rpm et Feluat a ete elimine. 500 jtil de tampon 
AW2 ont ete ajoutes sur la colonne qui a ensuite ete centrifugee 3 min k 14000 rpm et 

20 transferee sur un tube de 1 ,5 ml. Enfin, 60 pi de tampon AVE ont ete ajoutes sur la 
colonne qui a ete incubee 1 a 2 min a temperature ambiante puis centrifugee 1 min a 
8000 rpm. L'Sluat correspondant a TARN purifie a 6te recupere et congele a ~20°C. 

2. Amplification, seciuencage et clonage des ADNc 
2.1) ADNc codant pour la proteine S 

25 Les ARN extraits a partir du prelevement ont ete soumis a une trans- 

cription inverse a 1'aide d'oligonucl6otides hexameriques de sequence al6atoire 
(pdN6), afin de produire des fragments d' ADNc. 

La sequence codant pour la glycoproteine S du SARS-CoV a ete 
amplifiee sous la forme de deux fragments d'ADN chevauchants : fragment 5' 

30 (SRAS-Sa, SEQ ID NO:5) et fragment 3'(SRAS-Sb, SEQ ID NO:6), en r&ilisant deux 
amplifications successives a Taide d'amorces imbriquees. Les amplicons ainsi obtenus 
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ont 6te s6quenc6s, clones dans le vecteur plasmidique PGR 2.1-TOPO™ (IN 
VITROGEN), puis la sequence des ADNc clones a ete determinde. 
a) clonage et sequencage des fragments Sa et Sb 
ai) SMJthege de A! ADNc 
5 Le melange reactionnel contenant ; ARN (5 jxl) , H2O ppi (3,5 f.il), 

tampon de transcriptase inverseSX (4 jlx1,)> dNTP 5 raM (2 fal), pdN6 100 ug/ml (4 pi), 
RNasin 40 UI/ul (0,5 pi) et transcriptase inverse AMV-RT, 10 UI/ul, PROMEGA 
(lfil) a &t€ incube dans un thermocycleur dans les conditions suivantes : 45 min a 
42°C, 1 5 min a 55°C, 5 min a 95°C, puis TADNc obtenu a &6 maintenu k +4°C. 

10 a2) premiere ^plificatisnP.Q^ 

Les extremites 5' et 3' du gene S ont ete amplifies respectivement 
avec les paires d'amorces S/F1/+/ 21350-21372 et S/Rl/-/ 23518-23498, S/F3/+/ 
23258-23277 et S/R3/-/25382-25363. Le melange reactionnel de 50 pi contenant : 
ADNc (2 fil), amorces 50 (0,5 jil), tampon 10 X (5 |il), dNTP 5 mM (2 |xl), Taq 

15 Expand High Fidelity, Roche (0,75 j*l) et H 2 0 (39, 75 |il) a ete amplifie dans un 
thermocycleur, dans les conditions suivantes : une etape initiale de denaturation a 
94°C pendant 2 min a 6te suivie de 40 cycles comprenant : une etape de denaturation a 
94°C pendant 30 sec, une etape d'hybridation a 55°C pendant 30 sec puis une etape 
d'elongation & 72°C pendant 2 min 30 sec, avec 10 sec d'elongation supplemental a 

20 chaque cycle, puis d'une 6tape finale d'elongation a 72°C pendant 5 min. 
a3> deuxi^ 

Les produits de la premiere amplification PCR (amplicons 5 9 et 3') 
ont subi une seconde etape d' amplification PCR (PCR nich6e) dans des conditions 
identiques a celles de la premiere amplification, avec les paires d' amorces 
25 S/F2/+/21406-21426 et S/R2/-/23454-23435, et S/F4/+/23322-23341 et S/R4A/25348- 
25329, respectivement pour-l'amplicon 5' et Tamplicon 3'. 
a4).clpnag^ 

Les amplicons Sa (extremite 5') et Sb (extremite 3') ainsi obtenus ont 
ete purifies a Taide du kit QIAquick PCR purification (QIAGEN), en suivant les 
30 recornmandations du fabricant, puis ils ont ete clones dans le vecteur PCR2.1-TOPO 
(kit Invitrogen), pour donner les plasmides d6nomm6s SRAS-S1 et SRAS-S2. 
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L'ADN des clones Sa et Sb a ete isole puis l'insert correspondant a 
ete sequence a l'aide du Kit Big Dye, Applied Biosystem® et des amorces univer- 
selles Ml 3 forward et Ml 3 reverse, ainsi que des amorces: S/S/+/21867, 
S/S/+/22353, S/S/+/22811, S/S/+/23754, S/S/+/24207, S/S/+/24699, S/S/+/24348, 
5 S/S/-/24209, S/S/-/23630, S/S/-/23038, S/S/-/22454, S/S/-/21815, S/S/-/24784, 
S/S/+/21556, S/S/+/23130 et S/S/+/24465, en suivant les instructions du fabricant ; les 
sequences des fragments Sa et Sb ainsi obtenues correspondent aux sequences SEQ ID 
NO :5 et SEQ ID NO :6 dans la liste de sequences jointe en annexe. 

Le plasmide, denomme SARS-S1 a ete depose sous le n° 1-3020, le 
10 12 mai 2003, aupres de la Collection Nationale de Cultures de Microorganismes, 25 
rue du Docteur Roux, 75724 Paris Cedex 15; il contient un fragment 5' de la 
sequence du gene S de la souche de SARS-CoV issue du prelevement repertorie sous 
le n° 031589, telle que definie ci-dessus, lequel fragment denomm6 Sa correspondant 
aux nucleotides des positions 21406 a 23454 (SEQ ID NO :5), en reference a la 
1 5 sequence Genbank AY2741 1 9.3 Tor2. 

Le plasmide, denomme TOP10F-SARS-S2 a ete depos6 sous le n° 
1-3019, le 12 mai 2003, aupres de la Collection Nationale de Cultures de 
Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15 ; il contient un 
fragment 3'de la sequence du gene S de la souche de SARS-CoV issue du preleve- 
20 ment repertorie sous le n° 031589, telle que d6finie ci-dessus, lequel fragment 
denomm6 Sb correspondant aux nucleotides des positions 23322 a 25348 (SEQ ID 
NO : 6), en reference a la sequence Genbank n° d'acces AY2741 19.3. 
h) clonage et sequencaee de I'ADNc complet (clone SRAS-S de 4 kb) 

L'ADNc S complet a ete obtenu a partir des clones SARS-S1 et 
25 SARS-S2 precites, de la facon suivante : 

1) une reaction d'amplification PCR a ete r6alisee sur un clone 
SARS-S2 en presence de I'amorce S/R4/-/25348-25329 precitee et de l'amorce 
S/S/+/24696-24715: un amplicon de 633 bp a 6te obtenu, 

2) une autre reaction d'amplification PCR a ete realisee sur un autre 
30 clone SARS-S2, en presence des amorces S/F4/+/23322-23341 precitee et S/S/- 
/24803-24784: un amplicon de 1481 pb a 6te obtenu, 
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La reaction d' amplification a ete r6alis6e dans les conditions telles 
que definies ci-dessus pour 1'amplification des fragments Sa et Sb, a 1'exception que 
30 cycles d'amplifications comprenant tine etape de denaturation a 94° C pendant 20 
sec et une 6tape d'elongation a 72° C pendant 2 min 30 sec ont ete effectues. 

3) les 2 amplicons (633 pb et 1481 pb) ont ete purifies dans les 
conditions telles que d6finies ci-dessus pour les fragments Sa et Sb. 

4) une autre reaction d' amplification PCR a l'aide des amorces 
S/F4/4-/23322-23341 et S/R4/-/25348-25329 precitees, a ete realisee sur les amplicons 
purifies obtenus en 3). La reaction d' amplification a 6t6 r6alis6e dans les conditions 
telles que definies ci-dessus pour 1'amplification des fragments Sa et Sb, a T exception 
que 30 cycles d'amplifications ont 6te effectues. 

L'amplicon de 2026 pb ainsi obtenu a et6 purifie, clon6 dans le 
vecteur PCR2.1-TOPO puis sequenc6 comme ci-dessus, a l'aide des amorces telles 
que definies ci-dessus pour les fragments Sa et Sb. Le clone ainsi obtenu a ete 
denomme clone 3'. 

5) Le clone SARS-S1 precedemment obtenu et le clone 3 'ont ete 
digerSs par EcoR I les bandes d' environ 2kb ainsi obtenues ont ete purifiees sur gel 
puis amplifies par PCR avec les amorces S/F2/+/2 1406-2 1426 et S/R4/-/25348- 
25329 precipes. La reaction d 'amplification a ete realisee dans les conditions telles 
que definies ci-dessus pour 1'amplification des fragments Sa et Sb, a l'exception que 
30 cycles d'amplifications ont ete effectues. L'amplicon d'environ 4 kb a ete purifie et 
s6quenc£. II a ensuite 6te clone dans le vecteur PCR2.1-TOPO pour donner le 
plasmide, dSnomme SARS-S, et l'insert contenu dans ce plasmide a ete sequence 
comme ci-dessus, a 1'aide des amorces telles que definies ci-dessus pour les fragments 
Sa et Sb. Les sequences d'ADNc de l'insert et de l'amplicon codant pour la proteine 
S, correspondent respectivement aux sequences SEQ ID NO : 4 et SEQ ID NO : 2 
dans la liste de sequences jointe en annexe, elles codent pour la proteine S (SEQ ID 
NO : 3). 

La sequence de l'amplicon correspondant a l'ADNc codant pour la 
prot6ine S de la souche de SARS-CoV issue du pr616vement n°031589 presente les 
deux mutations suivantes par rapport aux sequences correspondantes de respective- 
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ment les isolats Tor2 et Urbani, les positions des mutations 6tant indiquSes en Te- 
rence a la sequence complete du genome de l'isolat Tor2 (Genbank AY2741 19.3) : 

- g/t en position 23220 ; le codon alanine (get) en position 577 de la 
sequence en acides amines de la prot&ne S de Tor2 est remplace par un codon serine 

5 (tct), 

- c/t en position 24872 : cette mutation ne modifie pas la sequence 
en acides amines de la proteine S, et 

Le plasmide, d<§nomme SARS-S, a ete depose sous le n° 1-3059, le 
20 juin 2003, aupres de la Collection Nationale de Cultures de Microorganismes, 25 

10 rue du Docteur Roux, 75724 Paris Cedex 15 ; il contient la sequence d'ADNc codant 
pour la prot&ne S de la souche de SARS-CoV issue du prelevement repertorie sous le 
n° 031589, laquelle sequence correspondant aux nucleotides des positions 21406 a 
25348 (SEQ ID NO :4), en reference a la sequence Genbank AY2741 1 9.3. 
2.2) ADNc codant pour les proteines M et E 

15 Les ARN issus du prelevement 031589, extraits comme ci-dessus, 

ont ete soumis a une transcription inverse, associSe, lors de la meme etape (kit Titan 
One Step RT-PCR®, Roche), a une reaction ^amplification par PCR, a l'aide des 
couples d' amorces : 

- S/E/F1/+/26051-26070 et S/E/R1/-/26455-26436 pour amplifier l'ORF-E, et 
20 - S/M/F1/+/26225-26244 et S/M/Rl A/27148-27129 pour amplifier l'ORF-M. 

Un premier melange reactionnel contenant : 8,6 \i\ d'H^Oppi, 1 \i\ de 
dNTP (5mM), 0,2 \±l de chacune des amorces (50|liM), 1,25 \xl de DTT (lOOmM) et 
0,25 jil de RNAsin (40UI/jxl) a 6t6 combin6 avec un deuxieme melange reactionnel 
contenant : 1 \il d'ARN, 7 \il d , H 2 Oppi, 5 |xl de tampon de RT-PCR 5X et 0,5 pi de 
25 melange d'enzyme et les melanges combines ont etd incubes dans un thermocycleur 
dans les conditions suivantes : 30 min k 42°C, 10 min a 55°C, 2 min h 94°C suivi de 
40 cycles comprenant une etape de denaturation a 94°C pendant 10 sec, une etape 
d'hybridation a 55°C pendant 30 sec et une etape d'elongation a 68°C pendant 45 sec, 
avec 3 sec ^increment par cycle et enfin une etape d' elongation terminate a 68°C 
30 pendant 7 min. 
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Les produits d' amplification ainsi obtenus (amplicons M et E) ont 
subi une deuxieme amplification PCR (PCR nichee) en utilisant le kit Expand High- 
Fi®, Roche), a l'aide des couples d'amorces : 

- S/E/F2/+/26082-26101 et S/E/R2/-/264 13-26394 pour l'amplicon E, et 

- S/M/F2/+/26330-26350 et S/M/R2/-/27098-27078 pour l'amplicon M. 

Le melange reactionnel contenant : 2 pi du produit de la premiere PCR, 39,25 pi 
d'H 2 Oppi, 5 pi de tampon 10X contenant du MgCl 2 , 2 pi de dNTP (5mM), 0,5pl de 
chacune des amorces (50 pM) et 0,75pl de melange d'enzyme a ete incube dans un 
thermocycleur dans les conditions suivantes : une etape de denaturation a 94°C 
pendant 2 min a ete suivie de 30 cycles comprenant une etape de denaturation h 94°C 
pendant 15 sec, une etape d'hybridation a 60°C pendant 30 sec et une etape 
d'elongation a 72°C pendant 45 sec, avec 3 sec d'increment par cycle, et enfin une 
etape d'elongation terminale a 72°C pendant 7 min. Les produits d'amplification 
obtenus correspondant aux ADNc codant pour les proteines E et M ont ete sequences 
comme ci-dessus, a l'aide des amorces: S/E/F2/+/26082 et S/E/R2/-/26394, 
S/M/F2/+/26330, S/M/R2/-/27078 precipes et des amorces S/M/+/26636-26655 et 
S/M/-/26567-26548. lis ont ensuite ete clones, comme ci-dessus, pour dormer les 
plasraides denommes SARS-E et SARS-M. L'ADN de ces clones a ensuite ete isole et 
sequence a l'aide des amorces universelles M13 forward et M13 reverse ainsi que des 
amorces S/M/+/26636 et S/M/-/26548 precitees. 

La sequence de l'amplicon representant l'ADNc codant pour la 
proteine E (SEQ ID NO: 13) de la souche de SARS-CoV issue du prelevement 
n°031589 ne comporte pas de differences par rapport aux sequences correspondantes 
des isolats AY274119.3-Tor2 et AY278741-Urbani. La sequence de la proteine E de 
la souche de SARS-CoV 031589 correspond a la sequence SEQ ID NO : 14 dans la 
liste de sequences jointe en annexe. . 

Le plasmide, denomme SARS-E a ete depose sous le n° 1-3046, le 
28 mai 2003, aupres de la Collection Nationale de Cultures de Microorganismes, 25 
rue du Docteur Roux, 75724 Paris Cedex 15 ; il contient la sequence d'ADNc codant 
pour la proteine E de la souche de SARS-CoV issue du prelevement repertorie sous le 
n° 031589, telle que definie ci-dessus, laquellc sequence correspondant aux 
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nucleotides des positions 26082 a 26413 (SEQ ID NO :15), en reference a la sequence 
Genbank n° d'acces AY2741 193. 

La sequence de Famplicon representant l'ADNc codant pour la M 
(SEQ ID NO :16) de la souche de SARS-CoV issue du prelevement n°031589 ne 
5 comporte pas de differences par rapport a la sequence correspondante de 1'isolat 
AY274119.3-Tor2. En revanche, en position 26857, 1'isolat AY278741-Urbani 
comporte un c et la sequence de la souche de SARS-CoV issue du prelevement reper- 
tories sous le n°031589 un t. Cette mutation aboutit a une modification de la sequence 
en acides amines de la proteine correspondante: en position 154, une proline 

10 (AY278741-Urbani) est changee en serine dans la souche de SARS-CoV issue du 
prelevement repertorie sous le n°031589. La sequence de la proteine M de la souche 
de SARS-CoV issue du prelevement repertorie sous le n°031589 correspond a la 
sequence SEQ ID NO :17 dans la liste de sequences jointe en annexe. 

Le plasmide, denomm£ SARS-M a et£ depose sous le n° 1-3047, le 

15 28 mai 2003, aupres de la Collection Nationale de Cultures de Microorganismes, 25 
rue du Docteur Roux, 75724 Paris Cedex 15 ; il contient la sequence d'ADNc codant 
pour la proteine M de la souche de SARS-CoV issue du prelevement repertorie sous le 
n° 031589, telle que definie ci-dessus ; laquelle sequence correspondant aux 
nucleotides des positions 26330 a 27098 (SEQ ID NO :18), en reference a la sequence 

20 Genbank n° d'acces AY2741 19.3. 

2.3) ADNc correspondant aux ORF3, ORF4 5 ORF7 a ORF11 

La meme strategic d'amplification, de clonage et de sequen?age a ete 
utilisee pour obtenir les fragments d'ADNc correspondant respectivement aux ORF 
suivantes: ORF 3, ORF4, ORF7, ORF8, ORF9, ORF10 et ORF11. Les couples 

25 d 'amorces utilisees pour la premiere amplification sont : 

- ORF3 et QRF4 : S/SE/F1/+/25069-25088 et S/SE/R1/-/26300-26281 

- ORF7aORFll : S/MN/F1/+/26898-26917 et S/MN/R1A/28287-28266 

Les couples d' amorces utilisees pour la deuxieme amplification sont : 

- ORF3 et ORF4 : S/SE/F2/+/251 10-25129 et S/SE/R2/-/26244-26225 
30 - ORF7aORFll : S/MN/F2/+/26977-26996 et S/MN/R2A/282 1 8-28 1 99 

Les conditions de la premiere amplification (RT-PCR) sont les 
suivantes : 45 min a 42°C, 10 min a 55°C, 2 min h 94°C suivi de 40 cycles compre- 
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nant une etape de denaturation a 94°C pendant 15 sec, une etape d'hybridation a 58°C 
pendant 30 sec et une etape d'elongation a 68°C pendant 1 min, avec 5 sec decre- 
ment par cycle et enfin une etape d'elongation terminale a 68°C pendant 7 min. 
Les conditions de la PCR nichee sont les suivantes : une etape de denaturation a 94°C 
5 pendant 2 min a ete suivie de 40 cycles comprenant une etape de denaturation a 94°C 
pendant 20 sec, une etape d'hybridation a 58°C pendant 30 sec et une etape 
d'elongation a 72°C pendant 50 sec, avec 4 sec ^increment par cycle et enfin une 
etape d'elongation terminale a 72°C pendant 7 min. 

Les produits d'amplification obtenus correspondant aux ADNc 
10 contenant respectivement les ORF3 et 4 et les ORF7 a 1 1 ont et6 sequences a l'aide 
des amorces: S/SE/+/25363, S/SE/+/25835, S/SE/-/25494, S/SE/-/25875, 
S/MN/+/27839, S/MN/+/27409, S/MN/-/27836 S/MN/-/27799 et clones comme ci- 
dessus pour les autres ORF, pour donner les plasmides denommes SARS-SE et 
SARS-MN. L'ADN de ces clones a ete isole et sequence a l'aide de ces memes 
1 5 amorces et des amorces uni verselles Ml 3 sens et Ml 3 anti-sens. 

La sequence de l'amplicon representant l'ADNc de la region conte- 
nant les ORF 3 et 4 (SEQ ID NO :7) de la souche de S ARS-CoV issue du prelevement 
n°031589 comporte une difference nucleotidique par rapport a la sequence corres- 
pondante de l'isolat AY274119-Tor2. Cette mutation en position 25298 aboutit a une 
20 modification de la sequence en acides amines de la proteine correspondante (ORF 3): 
en position 1 1, une arginine (AY274119-Tor2) est changee en glycine dans la souche 
de SARS-CoV issue du prelevement n°031589. En revanche, aucune mutation n'a ete 
identified par rapport a la sequence correspondante de l'isolat AY278741-Urbani. Les 
sequences des ORF 3 et 4 la souche de SARS-CoV issue du prelevement n°031589 
25 correspondent respectivement aux sequences SEQ ID NO :10 et 12 dans la liste de 

sequences jointe en annexe. 

Le plasmide, denomme SARS-SE a ete depose sous le n° 1-3 1 26, le 
13 novembre 2003, aupres de la Collection Nationale de Cultures de 
Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15 ; il contient 
30 l'ADNc correspondant a la region situee entre PORF-S et l'ORF-E et chevauchant 
l'ORF-E de la souche de SARS-CoV issue du prelevement repertorie sous le n° 
031589, telle que definie ci-dessus, laquelle region correspondant aux nucleotides des 
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positions 25110 a 26244 (SEQ ID NO :8), en reference a la sequence Genbank n° 
d'accesAY274119.3, 

La sequence de l'amplicon representant l'ADNc correspondant a la 
region contenant les ORF7 a ORF11 (SEQ ID NO :19) de la souche de SARS-CoV 
5 issue chi prelevement n°031589 ne comporte pas de differences par rapport aux 
sequences correspondantes des isolats AY274119-Tor2 et AY278741-Urbani. Les 
sequences des ORF7 a 1 1 de la souche de SARS-CoV issue du prelevement n°031589 
correspondent respectivement aux sequences SEQ ID NO : 22, 24, 26, 28 et 30 dans la 
liste de sequences jointe en annexe. 

10 Le plasmide denbmme S ARS-MN a ete depose sous le n° 1-3 1 25, le 

13 novembre 2003, aupres de la Collection Nationale de Cultures de 
Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15 ; il contient la 
sequence d'ADNc correspondant a la region situee entre l'ORF-M et l'ORF-N de la 
souche de SARS-CoV issue du prelevement repertoriS sous le n°. Q31589 et prelevee a 

15 Hanoi, telle que definie ci-dessus, laquelle sequence correspondant aux. nucleotides 
des positions 26977 a 28218 (SEQ ID NO :20 ), en reference a la sequence Genbank 
n°d'acces AY274 119.3. 

La sequence de l'amplicon representant PADNc correspondant a la 
region contenant les ORF7 a ORF1I (SEQ ID NO :19) de la souche de SARS-CoV 

20 issue du prelevement n°031589 ne comporte pas.de differences par rapport aux 
sequences correspondantes des isolats AY2741 19-Tor2 et AY278741-Urbani. Les 
sequences des ORF7 all de la souche de SARS-CoV issue du prelevement n°031589 
correspondent respectivement aux sequences SEQ ID NO : 22, 24, 26, 28 et 30 dans la 
liste de sequences jointe en annexe. 

25 2.4) ADNc codant pour la prot&ne N et incluant les ORF13 et ORF14 

L'ADNc a ete synthetise et amplifie comme decrit ci-dessus pour les 
fragments Sa et Sb. De maniere plus pr6cise, le melange reactionnel contenant : 5 jil 
d'ARN, 5 \x\ d'H 2 0 ppi 4 jul de tampon de reverse transcriptase 5X, 2 jal de dNTP (5 
mM), 2 \i\ d'oligo 20T (5 [xM) 9 0,5 ]il de RNasin (40 UI/ul) et 1, 5 pi de AMV-RT (10 

30 UI/ul Promega) a ete incubc dans un thermocycleur dans les conditions suivantes : 45 
min h 42°C, 15 min a 55°C, 5 min & 95°C, puis il a 6te maintenu a +4°C. 



38 

Une premiere amplification PCR a ete realisee avec la paire 
d'amorces S/N/F3/+/28023 et S/N/R3/-/29480. 

Le melange reactionnel comme ci-dessus pour l'amplification des 
fragments SI et S2 a ete incube dans un thermocycleur, dans les conditions suivantes : 
une etape initiale de denaturation a 94°C pendant 2 min a ete suivie de 40 cycles 
comprenant une etape de denaturation a 94°C pendant 20 sec, une etape d'hybridation 
a 55°C pendant 30 sec puis une 6tape d'elongation a 72°C pendant 1 min 30 sec avec 
10 sec d' elongation supplemental a chaque cycle, puis d'une etape finale 
d'elongation a 72°C pendant 5 min. 

, L'amplicon obtenu a la premiere amplification PCR a subi une 
seconde etape d'amplification PCR (PCR nichee) avec la paires d'amorce 
S/N/F4/+/28054 et „S/N/R4/-/29430 dans des conditions identiques a celles de la 

premiere amplification. 

Le produit d'amplification obtenu correspondent a l'ADNc codant 
pour/la proteine N de la souche de SARS-CoV issue du prelevement n°03 1589a ete 
rsequence .a l'.aide des, amorces : S/N/F4/+/28054, S/N/R4/-/29430, S/N/+/28468, 
S/N/+/28918 et S/N/-/28607 et clon6 comme ci-dessus. pour les autres ORF, pour 
donner le plasmide denomme SARS-N. L'ADN de ces clones a 6t6 isole et sequence a 
l'aide des amorces universelles Ml 3 sens et Ml 3 anti-sens, ainsi que des amorces 
S/N/+/28468, S/N/+/28918 et S/N/-/28607. 

La sequence de l'amplicon representant l'ADNc correspondant a 
l'ORF-N et incluant les ORF13 et ORF14 (SEQ ID NO :36) de la souche de SARS- 
CoV issue du prelevement n°031589 ne comporte pas de differences par rapport aux 
sequences correspondantes des isolats AY2741 19.3-Tor2 et AY278741-Urbani. La 
sequence de la proteine N de la souche de SARS-CoV issue du prelevement n°031 589 
correspond a la sequence. SEQ ID NO : 37 dans la liste de sequences jointe en annexe. 

Les sequences des ORF13 et 14 de la souche de SARS-CoV issue du 
pr61evement n°031589 correspondent respectivement aux sequences SEQ ID NO : 32 
et 34 dans la liste de sequences jointe en annexe. 

Le plasmide d6nomm6 SARS-N a ete deposd sous le n° 1-3048, le 5 
juin 2003, aupres de la Collection Nationale de Cultures de Microorganismes, 25 rue 
du Docteur Roux, 75724 Paris Cedex 15 ; il contient l'ADNc codant pour la proteine 
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N de la souche de SARS-CoV issue du prelevement r6pertorie sous le n° 031 589, telle 

que definie ci-dessus, laquelle sequence correspondant aux nucleotides des positions 

28054 a 29430 (SEQ ID NO :38), en reference a la sequence Genbank n° d'acces 

AY274119.3. 
5 2.5) extremites 5* et 3' non-codantes 

a) extremite 5'non-codante (5'NC) 

ai) synthese de l!ADNc 

Les ARN issus du prelevement 031589, extraits comme ci-dessus, 

ont ete soumis a une transcription inverse dans les conditions suivantes : 
10 L'ARN (15 jxl) et 1' amorce S/L/-/443 (3 jxl a la concentration de 

S^im, ont ete incubes 1 0 min a 75°C 

Ensuite, du Tampon de transcriptase inverse 5X (6 |il, 

INVITROGEN), des dNTP 10 mM (1 >il), du DTT 0,1M (3 /a!) ont ete ajoutSs et le 

melange a ete incube a 50°C pendant 3 min. 
15 Enfin la transcriptase inverse (3 ]ul de Superscript®, INVITROGEN) 

a ete ajoutee au melange precedent qui a ete incube a 50°C pendant lh30 puis a 90 °C 

pendant 2 min. 

L'ADNc ainsi obtenu a ete purifie a Taide du kit QIAquick PCR 
purification (QIAGEN), selon les recommandations du fabricant. 

20 b,) Mactipn a la TennMlTrmsferase (TdT) 

L'ADNc (10 est incube 2 min a 100°C, conserve dans la glace, 
puis sont ajout6s : H 2 0 (2,5 jil), tampon TdT 5X (4 fil, AMERSHAM), dATP 5mM 
(2 ^1) et TdT (1,5 |xl, AMERSHAM). Le melange ainsi obtenu est incube 45 min a 
37°C puis 2 min a 65°C. 

25 Le produit obtenu est amplifi6 par une premiere reaction PCR a l'aide 

des amorces: S/LA-/225-206 et ancre 14T: 5'- 

AGATGAATTCGGTACCTTTTTTT^^ (SEQ ID NO :68). Les conditions 

de Tamplification sont les suivantes : une 6tape initiale de denaturation a 94°C 
pendant 2 min est suivie de 10 cycles comprenant une etape de denaturation a 94°C 

30 pendant 10 sec, une etape d'hybridation a 45°C pendant 30 sec puis une etape 
d'elongation a 72°C pendant 30 sec puis de 30 cycles comprenant une 6tape de dena- 
turation a 94°C pendant 10 sec, une &ape d'hybridation a 50°C pendant 30 sec puis 
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une etape d'elongation a 72°C pendant 30 sec, puis d'une etape finale d'elongation h 
72°C pendant 5 min. 

Le produit de la premiere amplification PCR a subi une seconde 
etape d' amplification a l'aide des amorces : S/L/-/204-185 et ancre 14T precise dans 

5 des conditions identiques a celles de la premiere amplification. L'amplicon ainsi 
obtenu a 6te purifie, sequence a l'aide de l'amorce S/L/-/182-163 puis il a ete clone 
comme ci-dessus pour les differentes ORF, pour donner le plasmide denomme SARS- 
5'NC. L'ADN de ce clone a 6te isolS et sequence a Paide des amorces universelles 
M13 sens et M13 anti-sens et de 1'amorce S/LA-/1 82-163 pr6citee. 

10 L'amplicon representant PADNc correspondant a Pextremite 5'NC 

de la souche de SARS-CoV issue du prelevement repertorie sous le n° 031589 
correspond a la sequence SEQ ID NO : 72 dans la liste de sequences jointe en annexe ; 
cette sequence ne comporte pas de differences par rapport aux sequences 
correspondantes des isolats AY2741 193-Tor2 et AY278741-Urbani. 

15 Le plasmide denomm6 SARS-5'NC a et6 d6pose sous le n° I- 3 124, 

le 7 novernbre 2003, aupres de la Collection Nationale de Cultures de 
Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 1 5 ; il contient 
PADNc correspondant a l'extr&nite 5'non codante du genome de la souche de SARS- 
CoV issue du prelevement repertorie sous le n° 031589, telle que d^finie ci-dessus, 

20 laquelle sequence correspondant aux nucleotides des positions 1 a 204 (SEQ ID 
NO :39 ), en reference a la sequence Genbank n° d'acces AY2741 193. 
b) extremite 3'non-codante (3'NC) 
ai) synthese de FADNc 

Les ARN issus du prelevement 031589, extraits comme ci-dessus, 

25 ont ete soumis a une transcription inverse, selon le protocole suivant : le melange 
reactionnel contenant : ARN (5 jxl), H 2 Q (5 |J,1), tampon de transcriptase inverse 5X (4 
jal), dNTP 5 mM (2 Oligo 20T 5^M (2 ^1), RNasin 40 U/ fil (0,5 ^1) et RT-AMV 
10 UI/ ^il (1,5 pi, PROMEGA) a ete incube dans un thermocycleur, dans les conditi- 
ons suivantes : 45 min a 42°C, 1 5 min a 55°C, 5 min a 95°C, puis il a ete maintenu a 

30 +4°C. 

L'ADNc obtenu a 6t6 amplifie par une premiere reaction PCR h 
Paide des amorces S/N/+/28468-28487 et ancre 14T prScitee. Les conditions de 
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l'amplification sont les suivantes : une etape initiale de denaturation a 94°C pendant 2 
min est suivie de 10 cycles comprenant une etape de denaturation a 94°C pendant 20 
sec, une 6tape d'hybridation a 45°C pendant 30 sec puis une etape d'elongation h 
72°C pendant 50 sec puis de 30 cycles comprenant une etape de denaturation a 94°C 
pendant 20 sec, une etape d'hybridation a 50°C pendant 30 sec puis une etape 
d'elongation k 72°C pendant 50 sec, puis d'une etape finale d'elongation a 72°C 
pendant 5 min. 

Le produit de la premiere amplification PCR a subi une seconde 
etape d'amplification a I'aide des amorces S/N/+/28933-28952 et ancre 14T precitee, 
dans des conditions identiques a celles de la premiere amplification. L'amplicon ainsi 
obtenu a ete purifie, sequence a I'aide de Tamorce S/N/+/29257-29278 et clone 
comme ci-dessus pour les differentes ORF, pour donner le plasmide denommS SARS- 
3'NC. L'ADN de ce clone a ete isol6 et sequence a Taide des amorces universelles 
M13 sens et M13 anti-sens et de l'amorce S/N/+/29257-29278 precitee. 

L'amplicon representant l'ADNc correspondant a 1'extremite 3'NC 
de la souche de SARS-CoV issue du prelevement repertorie sous le n° 031589 corres- 
pond a la sequence SEQ ID NO :73 dans la liste de sequences jointe en annexe ; cette 
sequence ne comporte pas de differences par rapport aux sequences correspondantes 
des isolats AY274119.3-Tor2 et AY278741-Urbani. 

Le plasmide denomme SARS-3'NC a 6te depose sous le n° 1-3123 le 
7 novembre 2003, aupres de la Collection Nationale de Cultures de Microorganismes, 
25 rue du Docteur Roux, 75724 Paris Cedex 15. ; il contient la sequence d'ADNc 
correspondant a I'extr&nite 3'non codante du genome de la souche de SARS-CoV 
issue du pr61evement repertorie sous le n° 031589, telle que definie ci-dessus, laquelle 
sequence correspondant a celle situee entre le nucleotide en position 28933 k 29727 
(SEQ ID NO :40), en reference a la sequence Genbank n° d'acces AY274119.3, se 
termine par une serie de nucleotides a. 
2.6)ORFlaet ORFlb 

L'amplification de la region 5 1 contenant les ORFla et ORFlb du 
genome du SARS-CoV issu du prelevement 031589 a et<§ realisee en pratiquant des 
reactions de RT-PCR suivies de PCR nich^es scion les memes principes que ceux 
pr6c&Iemment decrits pour les autres ORF. Les fragments amplifies sont chevau- 
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chants sur plusieurs dizaines de bases, permettant ainsi la reconstruction informatique 
de la sequence complete de cette partie du g6nome. En moyenne, les fragments ampli- 
fies sont de deux kilobases. 

14 fragments chevauchants denommes LO a LI 2 ont ainsi ete 
5 amplifies a l'aide des amorces suivantes : 



Tableau II : Amorces utilises pour ^amplification 
de la region 5' (ORFla et ORFlb) 



REGION 
AMPLIFIEE 
ET 

SEQUENCEE 
(ne tient pas 
compte des 
amorces) 


Amorce sens 
RT-PCR 


Amorce antisens 
RT-PCR 


Amorce sens 
PCR nichee 


Amorce 
antisens PCR 
nichee 


LO ! 
50-480 


S/L0/F1/+30 


S/L0/R1/-481 






L1 

231-2240 


S/L1/F1AM47 


S/L1/R1/-2336 


S/L1/F2/+211 


S/L1/R2/-2241 


L2 

2156-4167 


S/L2/F1/+2033 


S/L2/R1/-4192 


S/L2/F2/+2136 


S/L2/R2/-4168 


L3 

3913-5324 


S/L3bis/F1/+3850 


S/L3bis/R1/-5365 


S/L3bis/F2/+3892 


S/L3bis/R2/-5325 


L4b 
4952-6023 


S/L4b/F1/+4878 


S/L4b/R1/-6061 


S/L4b/F2/+4932 


S/L4b/R2/-6024 


L4 

5325-7318 


S/L4/F1/+5272 


S/L4/R1/-7392 


S/L4/F2/+5305 


S/L4/R2/-7323 


L5 

7296-9156 


S/L5/F1/+7111 


S/L5/R1/-9253 


S/L5/F2/+7275 


S/L5/R2/-9157 


L6 

9053-11066 


S/L6/F1/+8975 


S/L6/R1/-11151 


S/L6/F27+9032 


S/L6/R2M1067 


L7 

10928-12962 


S/L7/F1/+10883 


S/L7/R1M3050 


S/L7/F2/+ 10928 


S/L7/R2/-12963 


L8 

12835-14834 


S/L8/F1/+12690 


S/L8/R1M4857 


S/L8/F2/+12815 


S/L8/R2/-14835 


L9 

14765-16624 


S/L9/F1/+14688 


S/L9/R1/-16678 


S/L9/F2/+14745 


S/L9/R2M6625 


L10 
16534-18570 


S/L10/F1/+16451 


S/L10/R1M8594 


S/L10/F2/+16514 


S/L10/R2/-18571 


L11 

18521-20582 


S/L11/F1/+18441 


S/L11/R1/-20612 


S/L11/F2/+18500 


S/L11/R2/-20583 


L12 

20338-22205. 


S/L12/F1/+20279 


S/L12/R1/-22229 


S/L12/F2/+20319 


S/L12/R2/-22206 



Tous les fragments ont et<§ amplifies dans les conditions suivantes, 



excepte le fragment L0 qui a 6te amplifie comme.decrit ci-dessus pour l'ORF-M :„ . 

!0 - RT-PCR : 30 min a 42°C, 15 min a 55°C, 2 min a 94°C, puis 

TADNc obtenu est amplifie dans les conditions suivantes : 40 cycles comprenant : une 
etape de denaturation a 94°C pendant 15 sec, une etape d'hybridation a 58°C pendant 
30 sec puis une etape d'elongation a 68°C pendant 1 min 30 sec, avec 5 sec 
d'elongation supplemental a chaque cycle, puis une 6tape finale d'elongation a 68°C 

1 5 pendant 7 min. 
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- PCR nichfe : une etape initiale de denaturation a 94°C pendant 2 
min est suivie de 35 cycles comprenant : une etape de denaturation a 94°C pendant 15 
sec, une etape d'hybridation a 60°C pendant 30 sec puis une etape d'elongation a 
72°C pendant 1 min 30 sec, avec 5 sec d'elongation supplemental a chaque cycle, 
puis une etape finale d'elongation k 72°C pendant 7 min. 

Les produits d'amplifications ont ete sequences a l'aide des amorces 
d6finies dans le Tableau III ci-apres : 

Tableau III : Amorces utilisees pour le sequencage 
de la region 5' (ORFla et ORFlb) 



Noms 



Sequences (SEP. ID NO : 76 a 139) 



S/L3/+/4932 
S/L4/+/6401 
S/L4/+/6964 
S/L4/-/6817 
S/L5/-/7633 
S/L5/-/8127 
S/L5/-/8633 
S/L5/+/7839 
S/L5/+/8785 
S/L5/+/8255 
S/L6/V9422 
S/L6/-/9966 
S/L6/-/10542 
S/L6/+/10677 
S/L6/+/10106 
S/L6/+/9571 
S/L7/-/11271 
S/L7/-/11801 
S/L7/-/12383 
S/L7/+/12640 
S/L7/+/12088 
S/L7/+/11551 
S/L8/-13160 
S/L8/-/13704 
S/L8/-14284 
S/L8/+/14453 
S/L8/+/13968 
S/L8/+/13401 
S/L9/-15098 
S/L9/-15677 
S/L9/-16247 
S/L9/+16323 
S/L9/+15858 
S/L9/+15288 
S/L10/-16914 
S/L10/-17466 
S/L10/-18022 
S/L10/+18245 
S/L10/+17663 



5'-CCACACACAGCTTGTGGATA-3' 
5-CCGAAGTTGTAGGCAATGTC-3' 
S'-TTTGGTGCTCCTTCTTATTG-S' 
5'-CCGGCATCCAAACATAATTT-3' 
5'-TG GTCAGTAGGGTTG ATTGG-3' 
5'-CATCCTTTGTGTCAACATCG-3' 
5*-GTCACGAGTGACACCATCCT-3' 
5'-ATGCGACGAGTCTGCTTCTA-3' 
5'-TTCATAGTGCCTGGCTTACC-3' 
S'-ATCTTGGCGCATGTATTGAC-S' 
5'-TGCATTAGCAGCAACAACAT-3' 
5'-TCTGCAGAACAGCAGAAGTG-3* 
5'-CCTGTGCAGTTTGTCTGTCA-3' 
5-CCTTGTGGCAATGAAGTACA-3' 
5'-ATGTCATTTGCACAGCAGAA-3' 
5'-CTTCAATGGTTTGCCATGTT-3' 
5'-TGCGAGCTGTCATGAGAATA-3* 
5*-AACCGAGAGCAGTACCACAG-3* 
5'-TTTGGCTGCTGTAGTCAATG-3' 
ff-CTACGACAGATGTCCTGTGC-3' 
5-GAGCAGGCTGTAGCTAATGG-3' 
S'-TTAGGCTATTGTTGCTGCTG-S' 
5-CAGACAACATGAAGCACCAC-3' 
5-CGCTGACGTGATATATGTGG-3' 
5'-TGCACAATGAAGGATACACC-3' 
5'-ACATAGCTCGCGTCTCAGTT-3" 
5'-GGCATTGTAGGCGTACTGAC-3' 
5'-GTTTGCGGTGTAAGTGCAG-3' 
5-TAGTGGCGGCTATTGACTTC-3' 
5'-CTAAACCTTGAGCCGCATAG-3' 
5'-CATGGTCATAGCAGCACTTG-3' 
5'-CCAGGTTGTGATGTCACTGAT-3* 
5'-CCTTACCCAGATCCATCAAG-3' 
5'-CGCAAACATAACACTTGCTG-3' 
5'-AGTGTTGGGTACAAGCCAGT-3' 
5'-GTTCCAAGGAACATGTCTGG-3' 
5'-AGGTGCCTGTGTAGGATGAA-3' 
5'-GGGCTGTCATGCAACTAGAG-3' 
5'-TCTTACACGCAATCCTGCTT-3' 



44 



S/L10/+17061 
S/L11/-/18877 
S/L11/-19396 
S/L11/-20002 
S/L11/+20245 
S/L11/+719611 
S/L11/+/19021 
SARS/L1/F3/+800 
SARS/L1/F4/+1391 
SARS/L1/F5/+1925 
SARS/L1/R3/-1674 
SARS/L1/R4/-1107 
SARS/L1/R5/-520 
SARS/L2/F3/+2664 
SARS/L2/F4/+3232 
SARS/L2/F5/+3746 
SARS/L2/R3/-3579 
SARS/L2/R4/-2991 
SARS/L2/R5/-2529 
SARS/L3/F3/+4708 
SARS/L3/F4/+5305 
SARS/L3/F5/+5822 
SARS/L3/R3/-5610 
SARS/L3/R4/-4988 
SARS/L3/R5/-4437 



5-TACCC ATCTGCTCG CATAGT-3' 

5'-GCAAGCAGAATTAACCCTCA-3' 

5'-AGCACCACCTAAATTG CATC-3' 

5'-TGGTCCCTTTGAAGGTGTTA-3' 

5'-TCGAACACATCGTTTATGGA-3' 

S'-GAAGCACCTGTTTCCATCAT-S' 

5-ACGATGCTCAGCCATGTAGT-3' 

5-GAGGTGCAGTCACTCGCTAT-3' 

5'-CAGAGATTGGACCTGAGCAT-3' 

5'-CAGCAAACCACTCAATTCCT-3' 

5'-AAATGATGGCAACCTCTTCA-3' 

5'-CACGTGGTTGAATGACTTTG-3' 

5*_ATTTCTGCAACCAGCTCAAC-3' 

5'-CGCATTGTCTCCTGGTTTAC-3' 

5'-GAGATTGAGCCAGAACCAGA-3* 

5-ATGAGCAGGTTGTCATGGAT-3' 

5'-CTGCCTTAAGAAGCTGGATG-3' 

5'-TTTCTTCACCAGCATCATCA-3' 

5'-CACCGTTCTTGAGAACAACC-3' 

5'-TCTTTGGCTGGCTCTTACAG-3' 

5-GCTGGTGATGCTGCTAACTT-3' 

5-CCATCAAGCCTGTGTCGTAT-3' 

5-CAGGTGGTGCAGACATCATA-3' 

5'-AACATCAGCACCATCCAAGT-3' 

5'-ATCGGACACCATAGTCAACG-3' 



Les sequences des fragments LO a LI 2 de la souche de SARS-CoV 
issue du prelevement repertori6 sous le n° 031589, correspondent respectivement aux 
sequences SEQ ID NO :41 a SEQ ID NO :54 dans la liste de sequences jointe en 
annexe. Parmi ces sequences, seule celle correspondant aux fragments L5 comporte 
une difference nucleotidique par rapport a la sequence correspondante de l'isolat 
AY278741-Urbani. Cette mutation t/c en position 7919 aboutit a une modification de 
la sequence en acides amines de la prot6ine correspondante, codee par l'ORF la: en 
position 2552, une valine (codon gtt ; AY278741) est chang6e en alanine (codon get) 
dans la souche de SARS-CoV 031589. En revanche, aucune mutation n'a ete identifi6e 
par rapport a la sequence correspondante de l'isolat AY2741 19.3-Urbani. Les autres 
fragments ne presentent pas de differences par rapport aux s6quences correspondantes 
des isolats Tor2 et Urbani. 



I Ol VJC|JUl 
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Exemple 2 : Production et purification de proteines N et S recombinantes de la 
souche de SARS-CoV issue du prelevement repertorie sous le num6ro 031589 

La prot&ne entiere et deux fragments polypeptidiques de la proteine 
S de la souche de SARS-CoV issue du prelevement repertorie sous le numero 031589 

5 ont et6 produites chez E. coli, sous forme de proteines de fusion comprenant une 
etiquette polyhistidine N-ou C-terminale. Dans les deux polypeptides S, les sequences 
hydrophobes N et C-terminales de la proteine S (peptide signal : positions 1 h 13 et 
helice transmembranaire : positions 1196 a 1218) ont 6te debtees alors que l'helice 0 
(positions 565 a 687) et les deux motifs de type coiled-coils (positions 895 a 980 et 

10 1 155 a 1 1 86) de la proteine S ont ete preserves. Ces deux polypeptides sont constitues 
par : un fragment long (S L ) correspondant aux positions 14 a 1 193 de la sequence en 
acides amines de la prot&ne S et un fragment court (S c ) correspondant aux positions 
475 a 11 93 de la sequence en acides amines de la proteine S. 
1) Clonage des ADNc N, Sju et S c dans les vecteurs d'expression pIVEX2.3 et 

15 pIVEX2.4 

Les ADNc correspondant a la proteine N et aux fragments Sl et Sc 
ont ete amplifies par PCR dans des conditions standard, a Taide de PADN polymerase 
Platinium Pfic® (INVITROGEN). Les plasmides SRAS-N et SRAS-S ont ete utilises 
comme ma trice et les oligonucleotides suivants comme amorces : 

20 5 '-CC CATATGT CTG ATAATGGACCCCAATCAAAC-3 * (N sens, SEQ ID NO :55) 

5 '-C CCCCGGG TGCCTGAGTTGAATCAGCAGAAGC-3 9 (N antisens, SEQ ID NO :56) 
5 '-CCCATATG AGTGACCTTGACCGGTGCACCAC-3 ' (S c sens, SEQ ID NO :57) 
5^CCCATATGAAACCTTGCACCCCACCTGCTC-3 5 (S L sens 5 SEQ ID NO :58) 
5 * >CCCCGGGGTTTAATATATTGCTC ATATTTTCCC-3 9 (S c et S L antisens, SEQ ID 

25 NO :59). 

Les amorces sens introduisent un site Ndel (soulign6) alors que les 
amorces antisens introduisent un site Xmal ou Smal (souligne). Les 3 produits 
d'amplification on et6 purifies sur colonne (kit QIAquickPCR Purification, QIAGEN) 
et clones dans un vecteur approprie. L'ADN plasmidique purifie des 3 constructions 
30 (kit QJAFilter Midi Plasmid, QIAGEN) a et6 verifiS par s6quen9age et dig6r6 par les 
enzymes Ndel etJCmal. Les 3 fragments correspondants aux ADNc N, S L et Sc ont 6te 
purifies sur gel d'agarose puis inserts dans les plasmides pIVEX2.3MCS (etiquette 
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polyhistidine C-terminale) et pIVEX2.4d (Etiquette polyhistidine N-terminale) preala- 
blement digeres par les mSmes enzymes. Apres verification des constructions, les 6 
vecteurs d'expressions ainsi obtenus (pIV2.3N, pIV2.3Sc, pIV2.3S L , pIV2.4N, 
pIV2.4S c 6galement denomme pIV2.4S,, P IV2.4Sl) ont 6te ensuite utilises, d'une part 
5 pour tester l'expression des prolines in-vitro, et d'autre part pour transformer la 
souche bacterienne BL21(DE3)pDIA17 (NOVAGEN). Ces constructions codent pour 
des proteines dont la masse moleculaire attendue est la suivante: pIV2.3N (47174 
Da), plV2.3Sc (82897 Da), pIV2.3S L (132056 Da), pIV2.4N (48996 Da), pIV2.4S, 
(81076 Da) et P rV2.4S L (l 33877 Da). 
1 0 2) Analyse de l'expression des proteines recombinantes in-vitro et in vivo 

L'expression de prot6ines recombinantes a partir des 6 vecteurs 
recombinants a ete testee, dans un premier temps, dans un systeme in-vitro (RTS100, 
Roche). Les proteines produites in vitro, apres une incubation des vecteurs recombi- 
nants pIVEX, 4h a 30°C, dans le systeme RTS100, ont ete analysees par western-blot 
15 a l'aide d'un anticorps anti-(his) 6 couple a la peroxydase. Le resultat d' expression in- 
vitro (Figure 1) montre que seule la proteine N est exprimee en quantites importantes, 
cela quelle que soit la position, N- ou C-terminale, de 1' etiquette polyhistidine. Dans 
une seconde etape, l'expression des proteines N et S a ete testee in-vivo a 30°C dans 
du milieu LB, en presence ou en 1'absence d'inducteur (IPTG ImM). La proteine N 
20 est tres bien produite dans ce systeme bacterien (Figure 2) et se retrouve principale- 
ment dans une fraction soluble apres lyse des bacteries. En revanche, la version longue 
de S (S L ) est tres peu produite et complement insoluble (Figure 3). La version courte 
(S c ) presente egalement une tres faible solubilite, mais un taux d'expression beaucoup 
plus eleve que celui de la version longue. Par ailleurs, la construction S c fusionnee a 
25 une etiquette polyhistidine en position C-terminale presente une taille plus faible que 
celle attendue. ..Une experience d' immunodetection ayec un anticorps anti-poly- 
histidine a montre que cette construction etait incomplete. En conclusion, les deux 
constructions, pIV2.3N et pTV2.4S b exprimant respectivement la proteine N entiere 
fusionnee a l'etiquette polyhistidine en C-terminal et la proteine S courte fusionnee a 
30 l'etiquette polyhistidine en N-terminal, ont ete retenues pour produire les deux 
proteines en grande quantity afin de les purifier. 
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3) Analyse de Pactivite antigenique des proteines recombin antes 

L'activite antigenique des prolines N, S L et S c a et6 testee par 
western-blot, a Paide de deux echantillons de serum, provenant d'un meme patient 
infecte par le SARS-CoV, preleves 8 jours (Ml 2) et 29 jours-(M13) apres le debut des 
5 symptomes du SRAS. Le protocole experimental est comme decrit a Texemple 3. Les 
resultats illustres par la figure 4 montrent (i) la seroconversion du patient, et (ii) que la 
proteine N possede une plus forte r6activite antigenique que la proteine S courte. 

4) Purification de la proteine N a partir de pIV2.3N 

Plusieurs experiences de purification de la proteine N, produite a 
10 partir du vecteur pIV2.3N, ont et<§ rSalisees selon le protocole suivant Les bacteries 
BL21(DE3)pDIA17, transformees par le vecteur d'expression pF/2.3N, ont ete culti- 
vees a 30°C dans 1 litre de milieu de culture contenant 0,1 mg/ml d'ampicilline, et 
induites par 1 mM IPTG quand la densite cellulaire, equivalente k A 6 oo = 0,8, est 
atteinte (environ 3 heures). Apres 2 heures de culture en presence d'inducteur, les 

1 5 cellules ont ete recuperees par centrifugation (10 min a 5000 rpm), remises en suspen- 
sion dans le tampon de lyse (50 mM NaH 2 P0 4> NaCl 0,3 M, 20 mM imidazole, pH 8 
contenant le melange d'inhibiteurs de proteases Complete® , Roche), et lysees par la 
presse de French (12000 psi). Apres centrifugation du lysat bacterien (15 min a 12000 
rpm), le surnageant (50 ml) a &e depose a un debit de Iml/min sur une colonne (15 

20 ml) de chelation metallique (Ni-NTA superflow, Qiagen), equilibrSe par le tampon de 
lyse. Apres lavage de la colonne par 200 ml de tampon de lyse, la prot6ine N a et6 
61u6e par un gradient d'imidazole (20 ->250 mM) en 10 volumes de colonne. Les 
fractions contenant la proline N ont ete rassemblees et analysees par electrophorese 
en gel de polyacrylamide en conditions denaturantes puis coloration au bleu de 

25 Coomassie. Les resultats illustres par la figure 5 montrent que le protocole employe 
permet de purifier la proteine N avec une homogeneite tres satisfaisante (95%) et un 
rendement moyen de 1 5 mg de proteine par litre de culture. 

5) Purification de la proteine S c a partir de pIV2.4S c (pIV2.4S j) 

Le protocole suivi pour purifier la proteine S courte est tres different 
30 de celui decrit ci-dessus car la proteine est fortement aggregee dans le systeme bacte- 
rien (corps d'inclusion). Les bacteries BL21(DE3)pDIA17, transformees par le 
vecteur depression pIV2.4Sj ont 6t6 cultivees a 30°C dans 1 litre de milieu de 
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culture contenant 0,1 mg/ml d'ampicilline, et induites par 1 mM IPTG quand la 
densite cellulaire, 6quivalente a A6oo - 0,8, est atteinte (environ 3 heures). Apr&s 2 
heures de culture en presence d'inducteur, les cellules ont ete r6cup6rees par centrifu- 
gation (10 min a 5000 rpm), remises en suspension dans le tampon de lyse (0,1 M 
5 Tris-HCl, EDTA 1 mM v pH 7,5), et lysees par la presse de French (1200 psi). Apres 
centrifiigation du lysat bacterien (15 min a 12000 rpm), le culot a ete remis en suspen- 
sion dans 25 ml de tampon de lyse contenant 2% Triton XI 00 et 10 mM p- 
mercaptoethanol, puis centrifug6 pendant 20 min a 12000 ipm. Le culot a 6te remis en 
suspension dans un tampon Tris-HCl 10 mM contenant 7 M uree, et mis en agitation 

10 douce pendant 30 min k temperature ambiante. Ce dernier lavage des corps 
d'inclusion avec 7 M ur6e est n6cessaire pour eliminer la plupart des prolines 
membranaires d *E. coli qui co-sedimentent avec la proteine Sc aggregee. Apres une 
derniere centrifiigation pendant 20 min a 12000 rpm, le culot final est remis en 
suspension dans le tampon Tris-HCl 10 mM. L'analyse electrophoretique de cette 

15 preparation (Figure 6) montre que la proteine S courte peut etre purifiee avec une 
homogeneite satisfaisante (environ 90%) a partir des corps d'inclusion (extrait 
insoluble). 

Exemple 3 : Immunodominance de la proline N 

La reactivite des anticorps presents dans le serum des patients 
20 atteints de pneumopathie atypique causee par le coronavirus associe au SRAS (SARS- 
CoV), vis-a-vis des differentes proteines de ce virus, a ete analys6e par western-blot 
dans les conditions decrites ci-aprfes. 
1) Materiel 

a) lvsat de cellules infect6es par le S ARS-CoV 

25 Des cellules Vero E6 (2x1 0 6 ) ont ete infectees par le SARS-CoV 

(isolat repertory sous le numero FFM/MA104) h une multiplicity d'infection (M.O.L) 
de 10' 1 ou 10 -2 puis incub^es dans du milieu DMEM contenant 2% de SVF, a 35°C 
dans une atmosphere contenant 5% de CO2. 48 heures plus tard, le tapis cellulaire a 
ete lave avec du PBS puis lyse avec 500 }il de tampon de depdt prepare selon Laemmli 

30 et contenant du 6-mercaptoethanoL Les 6chantillons ont ensuite 6te bouillis 10 
minutes puis soniques 3 fois 20 secondes. 
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b) anticorps 
bi) sftnuin.de 

Le serum ref£renc6 au Centre National de Reference des virus 
influenzae (Region-Nord) sous le N° 20033168 est celui d'un patient franfais atteint 
5 d'une pneumopathie atypique causee par le SARS-CoV preleve au jour 38 apres le 
d6but des symptdmes ; le diagnostic d'infection par le SARS-CoV a ete realise par 
RT-PCR nichee et PCR quantitative. 
b2) senims,ppj^^ 
pjot6ine S 

10 Les serums sont ceux produits a partir des proteines recombinantes N 

et S c (exemple 2), selon le protocole d'immunisation decrit a Pexemple 4 ; il s'agit du 
serum du lapin PI 3097 (serum anti-N) et du serum du lapin PI 1 135 (serum anti-S). 
2) Methode 

20 ^1 de lysat de cellules infectees par le SARS-CoV a des M.O.L de 
15 10~ ! et 10~ 2 et, a titre de controle, 20 jil d'un lysat de cellules non infectees (mock) ont 
ete separes sur un gel SDS a 10% de polyaciylamide puis transf6res sur une 
mraibrane de nitrocellulose. Apres blocage dans une solution de PBS/lait 5%/Tween 
0,1% et lavage en PBS/Tween 0,1%, cette membrane a 6te hybridee pendant une nuit 
a 4°C avec : (i) 1'immun-serum N° 20033168 dilue au 1/300, 1/1000 et 1/3000 dans le 
20 tampon PBS/BSA 1%/Tween 0,1%, (ii) le serum du lapin P13097 (s6rum anti-N) 
dilue au 1/50000 dans le meme tampon et (iii) le sdrum du lapin PI 1 135 (s6rum anti- 
S) dilue au 1/10000 dans le meme tampon. Apres lavage en PBS/Tween, une hybrida- 
tion secondaire a ete realisee a Paide, soit d' anticorps polyclonaux de mouton dirig6s 
contre les chaines lourdes et legeres des immunoglobulines G humaines et couples a la 
25 peroxidase (NA933V, Amersham), soit d'anticorps polyclonaux d'Sne dirig6s contre 
les chames lourdes et 16geres des immunoglobulines G de lapin et couples a la 
peroxidase (NA934V, Amersham). Les anticorps fixes ont 6te revel es a Paide du kit 
ECL+ (Amersham) et de films d'autoradiographie Hyperfilm MP (Amersham). Une 
echelle de masse moleculaire (kDa) est portee sur la figure. 

30 
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3) Rcsultats 

La figure 7 montre que trois polypeptides de masse moleculaire appa- 
rente 35, 55 et 200 kDa sont dStectes specifiquement dans les extraits de cellules 
infectives par le SARS-CoV. 
5. Afin d'identifier ces polypeptides, deux autres immunoempreintes 

(figure 8) ont ete realisSes sur les m§mes echantillons et dans les mSmes conditions 
avec des anticorps polyclonaux de lapins specifique de la nuc!6oproteine N (lapin 
P13097, figure 8A) et de la proteine de spicule S (lapin PI 1135, figure 8B) Cette 
experience montre que le polypeptide de 200 kDa correspond a la glycoproteine de 

1 0 spicule S du SARS-CoV, que le polypeptide de 55 kDa correspond a la nucleoproteine 
N tandis que le polypeptide de 35 kDa represente vraisemblablement une forme 
tronquee ou degradee de la N. 

Les donnees presentees dans la figure 7 montrent done que le serum 
20033168 r6agit fortement avec la N et beaucoup plus faiblement avec la S du SARS- 

15 CoV, puisque les polypeptides de 35 et 55 kDa sont reveles sous la foime de bandes 
intenses pour des dilutions de 1/300, 1/1000 et 1/3000 de Timmunserum alors que le 
polypeptide de 200 kDa n'est que faiblement r6vele pour une dilution de 1/300. On 
peut noter egalement qu'aucun autre polypeptide du SARS-CoV n'est detect^ pour des 
dilutions superieures au 1/300 du serum 20033 1 68. 

20 Cette experience indique que la reponse en anticorps specifique de 

la N du SARS-CoV domine les reponses en anticorps specifiques des autres poly- 
peptides du SARS-CoV et en particulier la reponse en anticorps dirigee contre la 
glycoproteine S. Elle indique une immunodominance de la nucleoproteine N lors des 
infections humaines par le SARS-CoV. 

25 Exemple 4 : Preparation tP anticorps polyclonaux monospecifiques diriges contre 
les prolines N et S du coronavirus associe au SRAS (SARS-CoV) 
1) Materiel et methode 

Trois lapins (P13097, P13081, P13031) ont 6t& immunises avec le 
polypeptide recombinant purifie correspondant a rintegralit6 de la nucleoproteine (N) 3 

30 prepare selon le protocole decrit k Fexemple 2. Apres une premiere injection de 0,35 
mg par lapin de proteine emulsionn6e en adjuvant complet de Freund (voie intra- 
dermique), les animaux ont re?us 3 injections de rappel a 3 puis 4 semaines 
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d'intervalle, de 0,35 mg de prot&ne recombinante emulsionnee en adjuvant incomplet 
de Freund. 

Trois lapins (P11135, P13042, P14001) ont ete immunises avec le 
polypeptide recombinant coiTespondant au fragment court de la proteine S (S c ), 
5 produit comme decrit a Pexemple 2. Comme ce polypeptide est retrouve principale-* 
ment sous la forme de corps d'inclusion dans le cytoplasme bact6rien, les animaux ont 
re9us 4 injections intra-dermiques k 3-4 semaines d'intervalle d'une preparation de 
corps d'inclusion correspondant a 0,5 mg de proline recombinante 6mulsionnee en 
adjuvant incomplet de Freund. Les 3 premieres injections ont ete realisees avec une 
10 preparation de corps d'inclusion prepares selon le protocole decrit a Pexemple 2, 
tandis que la quatrieme injection a ete realisee avec une preparation de corps 
d'inclusion qui ont et6 prepares selon le protocole decrit a l'exemple 2 puis purifies 
sur gradient de saccharose et laves en 2 % Triton XI 00. 

Pour chaque lapin, un serum pre-immun (p.i.) a ete pn§par<§ avant la 
15 premiere immunisation et un immun-serum (I.S.) 5 semaines apres la quatridme 
immunisation. 

Dans un premier temps, la reactivite des serums a ete analysee par 
test ELISA vis a vis de preparations de proteines recombinantes semblables a celles 
utilisees pour les immunisations ; les tests ELISA ont ete realises selon le protocole et 
20 avec les reactifs tels que decrits a l'exemple 6. 

Dans un deuxieme temps, la r6activite des serums a et6 analysee en 
realisant une immunoempreinte (western blot) "d'un lysat de cellules infectees par le 
SARS-CoV, en suivant le protocole tel que decrit a Texemple 3. 
2) Resultats 

25 Les tests ELISA (figure 9) d6montrent que les preparations de 

proteine N recombinante et de coips d'inclusion du fragment court de la proteine S 
(S c ) sont immunog£nes chez P animal et que le titre des serums immuns est eleve (plus 
de 1/25000). 

L'immunoempreinte (figure 8) montre que le s6rum immun du lapin 
30 PI 3097 reconnait deux polypeptides presents dans les lysats de cellules infectSes par 
le SARS-CoV : un polypeptide dont la masse moleculaire apparente (50-55 kDa selon 
les experiences) est compatible avec celle de la nucleoprot&ne N (422 residus, masse 
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moleculaire predite de 46 kDa) et un polypeptide de 35 kDa, qui represente vraisem- 
blablement une forme tronquee ou degrad6e de la N. 

Cette exp6rience montre Sgalement que le serum du lapin PI 1135 
reconnait principalement un polypeptide dont la masse moleculaire apparente (180- 
5 220 kDa selon les experiences) est compatible avec une forme glycosylee de la S 
(1255 r<Ssidus, chaine polypeptidique non glycosylee de 139 kDa), ainsi que des poly- 
peptides plus legers, qui represented vraisemblablement des formes tronquees et/ou 
non glycosytees de la S. 

En conclusion, F ensemble de ces experiences d6montrent que des 
10 polypeptides recombinants exprimes chez E. coli et correspondant aux prot6ines N et 
S du SARS-CoV permettent d'induire chez Fanimal des anticorps polyclonaux 
capables de reconnaitre les formes natives de ces prot6ines. 

Exemple 5 : Preparation d'anticorps polyclonaux monospecifiques diriges contre 
les proteines M et E du coronavirus associe au SRAS (SARS-CoV) 
15 1) Analyse de la structure des proteines M et E 

a)ProteineE 

La structure de la proteine E du SARS-CoV (76 acides amines) a ete 
analysee in silico , a Faide de differents logiciels comrae signalP vl.l, NetNGlyc 1.0, 
THMM 1.0 et 2.0 (Kxogh et aL, 2001, J. Mol. Biol., 305(3):567-580) ou encore 

20 TOPPRED (von Heijne, 1992, J. Mol. Biol. 225, 487-494). L 7 analyse montre que ce 
polypeptide non glycosyle est une prot&ne membranaire de type 1, contenant une 
seule helice transmembranaire (aa 12-34 d'apres THMM), et dont la plus grande partie 
du domaine hydrophile (42 residus) est localisee k Fextr6mite C-terminale et vraisem- 
blablement a Tinterieur de la particule virale (endodomaine). On peut noter une inver- 

25 sion dans la topologie pr6dite par les versions 1 .0 (N-ter est externe) et 2.0 (N-ter est 
interne) du logiciel THMM, mais que d'autres algorithmes, notamment TOPPRED et 
THUMBUP (Zhou et Zhou, 2003, Protein Science 12 :1 547-1 555) confirment une 
localisation externe de Textremite N-terminale de E. 
fr) Proteine M 

30 Une analyse similaire realisee sur la proteine M du SARS-CoV (221 

acides amines) montre que ce polypeptide ne poss&de pas de peptide signal (d'aprds le 
logiciel signalP vl.l) mais trois domaines transmembranaires (residus 15-37, 50-72, 
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77-99 d'apres THMM2.0) et un grand domaine hydrophile (aa 100-221) localise h 
l'interieur de la particule virale (endodomaine). Elle est vraisemblablement glycosylee 
sur l'asparagine en position 4 (d'apres NetNGlyc 1.0). 

Ainsi, en accord avec les donnees experimentales connues pour les 
5 autres coronavirus, il est remarquable que les deux proteines M et E presentent des 
endodomaines correspondant a la majeure partie des polypeptides et des ectodomaines 
de tres petite taille. 

- l'ectodomaine de E correspond vraisemblablement aux residus 1 a 
11 ou 1 a 12 de la proteine : MYSFVSEETGT(L), SEQ ID NO : 70. En effet, la 

10 probability associee k la localisation transmembranaire du residu 12 est intermediate 
(0,56 d'apres THMM 2.0). 

- l'ectodomaine de M correspond vraisemblablement aux residus 2 a 
14 de la proteine : ADNGTITVEELKQ, SEQ ID NO : 69. En effet, la methionine N- 
terminale de M est tres probablement clivee du polypeptide mature car le residu en 

15 position 2 est une Alanine (Varshavsky, 1996, 93:12142-12149). 

Par ailleurs, l'analyse de l'hydrophobicite (Kyte & Doolittle, Hopp 
& Woods) de la proteine E met en evidence que l'extremit6 C-teiminale de 
1 'endodomaine de E est hydrophile et done vraisemblablement exposee a la surface de 
ce domaine. Ainsi, un peptide synthetique correspondant a cette extremite est un bon 

20 candidat immunogene pour induire chez l'animal des anticorps diriges contre 
l'endodomaine de E. En consequence, un peptide correspondant aux 24 residus C- 
terminaux de E a 6te synthetase. 

2) Preparation d'anticorps diriges contre l'ectodomaine des proteines M et E et 
l'endodomaine de la proteine E 

- 5 Les peptides M2-14 (ADNGTITVEELKQ, SEQ ID NO : 69), El- 

12 (MYSFVSEETGTL, SEQ ID NO: 70) et E53-76 (KPTVYVYSRV 
KNLNSSEGVP DLLV, SEQ ID NO : 71) ont ete synthetis6s par Neosystem. lis ont 
et6 couples a la KLH {Keyhole Limpet Hemocyanin) a 1'aide du MBS (m-maleimido- 
benzoyl-N-hydroxysuccinimide ester) via une cysteine ajoutee au cours de la synthese 

0 soit en N-terminal du peptide (cas de E53-76) soit en C-terminal (cas de M2-1 4 et El- 
12). 
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Deux lapins ont &e immunises avec chacun des conjugues, en 
suivant le protocole d'immunisation suivant : apres une premiere injection de 0,5 rag 
de peptide couple a la KLH et emulsionn6 en adjuvant complet de Freund (voie intra- 
dermique), les animaux regoivent 2 i 4 injections de rappel a 3 ou 4 semaines 
5 d'intervalle de 0,25 mg de peptide couple a la KLH et emulsionne en adjuvant 
incomplet de Freund. 

Pour chaque lapin, un serum pre-immun (p.L) a ete prepare avant la 
premiere immunisation et un immun-serum (LS.) est prepare 3 a 5 semaines apres les 
injections de rappel. 

10 La reactivite des s6rums est analyst dans un premier temps par test 

ELISA vis a vis du peptide utilise pour ^immunisation, puis par immunoempreinte 
vis^-vis de lysats de cellules infectees par le SARS-CoV, comme decrit pour les 
serums anti-N et anti-S de l'exemple 4, selon des protocole similaires a ceux decrits 
aux exemples 3 et 6, respectivement pour 1* immunoempreinte et le test ELISA. 

15 Dans un second temps, la reactivite des immunserums diriges 

contre les peptides M2-14 et El -12 a reconnaitre les ectodomaines de M et de E 
presents a la surface de la particule virale native est analysee par des tests 
d'immunocapture et/ou d'immunoprecipitation de virions natifs. 

Exemple 6 : Analyse de la reactivite en ELISA de la proteine N recombinante, 
20 vis-a-vis de serums de patients atteints de SRAS 

1) Materiel 

L'antigene utilis6 pour preparer les phases solides est la nucteo- 
proteine N recombinante purifiee pr6paree selon le protocole decrit a Texemple 2. 

Les scrums a tester (Tableau IV) ont ete choisis sur la base des 
25 resultats d -analyse de leur reactivite par immunofluorescence (titre IF-SRAS), vis-a- 
vis de lysats de cellules infect6es par le S ARS-CoV. 



— I 
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Tableau IV: Serums testes en ELISA 



Reference 


N° serum 


Type 


Date du 


Titre IF-SRAS 






de serum 


Serum*** 




3050 


A 


Temoin 


na* 


nt** 


3048 


B 


Temoin 


na 


nt 


033168 


D 


Patient 1-SRAS 


27/04/03 (J38) 


320 


033397 


E 


Patient-1 SRAS 


11/05/03 (J52) 


320 


032632 


F 


Patient-2 SRAS 


21/03/03 (J1 7) 


2500 


032791 


G 


Patient-3 SRAS 


04/04/03 (J3) 


<40 


033258 


H 


Patient-3 SRAS 


28/04/03 (J27) 


160 



*na : non-applicable. ** nt : non-teste. *** les dates indiquees correspondent au nombre de 
jours apres le debut des symptomes de SRAS. 

5 

2) Methode 

La proteine N (100 jxl) diluee a differentes concentrations dans du 
tampon carbonate 0,1 M, pH 9,6 (1, 2 ou 4 Jig/ml) est distribute dans les puits de 
plaques ELISA, puis les plaques sont incubees une nuit a temperature du laboratoire. 

10 Les plaques sont lavees avec du tampon PBS-Tween, saturees avec du tampon PBS- 
lait ecrem6-saccharose (5 %). Les serums a tester (100 jil) prealablement dilues (1/50, 
1/100, 1/200, 1/400, 1/800, 1/1600 et 1/3200) sont ajoutes, puis les plaques sont incu- 
bees 1 ha 37° C. Apres 3 lavages, le conjugue anti-IgG humaines marque a la peroxy- 
dase (reference 209-035-098, JACKSON) dilu<§ au 1/18000 est ajoute puis les plaques 

15 sont incubees lh a 37 °C. Apres 4 lavages, le chromogene (TMB) et le substrat (H2O2) 
sont ajoutes et les plaques sont incubees 30min a temperature ambiante, a 1'abri de la 
lumiere. La reaction est ensuite arretee puis Tabsorbance a 450 nm est mesuree a 
Taide d*un lecteur automatique. 

3) Resultats 

20 Les tests ELISA (figure 10) demontrent que la preparation de 

proteine N recombinante est reconnue specifiquement par les anticoips de serums de 
patients atteints de SRAS preleves en phase tardive de Finfection (> 17 jours aprfes le 
debut des symptdmes) alors qu'elle n'est pas reconnue de fa9on significative par les 
anticorps d'un serum de patient preleve en phase pr6coce de Tinfection (3 jours aprds 

25 le d6but des symptdmes) ni par des strums temoins de sujets non atteints de SRAS. 
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Exemnle 7 : Detection du coronavirus associe au SRAS (SARS-CoV) par RT- 
PCR en temps reel a l'aide d'amorces specifiques du gene de la nucleoproteine 
1) Mise au point des conditions de la RT-PCR 

a) conception des amorces et des sondes 
5 La conception des amorces et sondes a ete realisee a partir de la 

sequence du genome de la souche de SARS-CoV issue du pr61evement repertorie sous 
le numero 031589, a l'aide du programme "Light Cycler Probe Design (Roche)". 
Ainsi les deux series d'amorces et de sondes suivantes ont ete selectionnees : 

- seric 1 (SEQ ID NO : 60, 61, 64, 65): 

1 0 - amorce sens : N/+/28507 : 5'-GGC ATC GTA TGG GTT G-3' [28507-28522] 

- amorce antisens : N/-/28774 : 5'-CAG TTT CAC CAC CTC C-3' [28774-28759] 

- sonde 1 : 5'-GGC ACC CGC AAT CCT AAT AAC AAT GC-fluoresceine 3' [28561- 
28586] 

- sonde 2 : 5' Red705 -GCC ACC GTG CTA CAA CTT CCT-phosphate [28588-28608] 
1 5 - serie2 (SEQ ID NO : 62, 63, 66, 67) 

- amorce sens : N/+/28375 : 5'-GGC TAC TAC CGA AGA G-3' [28375-28390] 

- amorce antisens : N/-/28702 : 5'-AAT TAC CGC GAC TAC G-3' [28702-28687] 

- sonde 1 : SRAS/N/FL : S'-ATA CAC CCA AAG ACC ACA TTG GC - fluorescein 3' 
[28541-28563] 

20 - sonde 2 : SRAS/N/LC705 : 5' Red705 -CCC GCA ATC CTA ATA ACA ATG CTG C- 
phosphate 3' [28565-28589] 

b) analyse de l'efficacite des deux couples amorces 

Afin de tester l'efficacite respective des deux couples d'amorces, une 
25 amplification par RT-PCR a 6t€ realisee sur un ARN synthetique correspondant aux 
nucleotides 28054-29430 du genome de la souche de SARS-CoV issue du preleve- 
ment repertorie sous le numero 031589et contenant la sequence du gene N. 
De mariiere plus precise : 

Cet ARN synthetique a et6 prepare par transcription in vitro a l'aide 
30 de l'ARN polymerase du phage T7, d'une matrice d'ADN obtenu par linearisation du 
plasmide SRAS-N avec l'enzyme Bam HI. Apres elimination de la matrice d'ADN par 
digestion a l'aide de DNAse 1, les ARN synthetiques sont purifies par une extraction 
au ph6nol-chloroforme suivie de deux precipitations successives en acetate 
d'ammonium et isopropanol. lis sont alors quantifies par mesure de l'absorbance k 260 
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nm et leur qualite est controtee par le rapport des absorbances a 260 et 280 nm ainsi 
que par une electrophorese en gel d'agarose. Ainsi, la concentration de la preparation 
dARN synthetique utilisee pour ces 6tudes est de 1,6 mg/ml, ce qui correspond a 
2,U0' 5 copies/ml dARN. 

5 Des quantites decroissantes dARN synthetique ont ete amplifies par 

RT-PCR a Faide du kit "Superscript™ One-Step RT-PCR with Platinum® Taq" et les 
couples d'amorces n° 1 (N/+/28507, N/728774) (figure 1 A) et n° 2 (N/+/2837S, N/- 
/28702) (figure IB), en suivant les indications du fournisseur. Les conditions d 1 ampli- 
fication utilisSes sont les suivantes : l'ADNc a ete synthetise par incubation 30 min a 

10 45 °C, 15 min k 55°C puis 2 min a 94 °C puis il a ete amplifie par 5 cycles compre- 
nant : une etape de denaturation a 94°C pendant 15 sec, une 6tape d'hybridation a 
45°C pendant 30 sec puis une 6tape d'61ongation a 72°C pendant 30 sec, suivis de 35 
cycles comprenant : une etape de denaturation a 94°C pendant 1 5 sec, une etape 
d'hybridation k 55°C pendant 30 sec puis une etape d'elongation a 72°C pendant 30 

15 sec, avec 2 sec d'elongation supplemental a chaque cycle, et d'une etape finale 
d'elongation a 72°C pendant 5 min. Les produits d' amplification obtenus ont ensuite 
ete maintenus a 10°C. 

Les resultats presentes k la figure 11 montrent que le couple 
d'amorces n° 2 (N/+/28375, N/-/28702) permet de detecter jusqu'a 10 copies dARN 

20 (bande de faible intensit6) ou 10 2 copies (bande de bonne intensite) contre 10 4 copies 
pour le couple d'amorces n° 1 (N/+/28507, NA/28774). Les amplicons sont respecti- 
vement de 268 pb (couple 1) et de 328 pb (couple 2). 

c) mise au point de la RT-PCR en temps reel 

Une RT-PCR en temps reel a ete mise au point a Paide du couple 
25 d'amorces n°2 et du couple de sonde constitue par SRAS/N/FL et SRAS/N/LC705 
(figure 2). 

L ! amplification a ete r6alisee sur un LightCycler™ (Roche) a 1'aide 
du kit "Light Cycler RNA Amplification Kit Hybridization Probes " (reference 2 015 
145, Roche) dans les conditions optimisees suivantes. Un Melange rSactionnel conte- 
30 nant : H 2 0 (6,8 |il), MgCl 2 25 mM (0,8 jil, 4 jaM final de Mg2+), melange rSactionnel 
5X (4 ^il), sonde SRAS/N/FL 3pM (0,5 fil, 0,075 final), sonde SRAS/N/LC705 3 
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jxM (0,5 \xl, 0,075 *iM final), amorce N/+/28375 10 \xM (1 |il, 0,5 ^iM final), amorce 
N/-/28702 10 jiM (1 pi, 0,5 \xM final), melange d'enzyme (0,4 pi) et echantillon 
(ARN viral, 5 \xl) a ete amplify en suivant le programme suivant : 

- Transcription inverse : 50°C 10:00min analysis mode: none 

5 - D6naturation : 95°C 30sec xl analysis mode: none 

- Amplification : 95°C 2sec ► 

50°C 15sec analysis mode: quantification *^ x45 

72°C 13sec rampe thermique 2,0°C/sec ► 

- refroidissement : 40°C 30sec xl analysis mode: none 

10 *La mesure de fluorescence se fait k la fin de Phybridation et a chaque cycle (en mode 
SINGLE). 

Les resultats presentes a la figure 12 montrent que cette RT-PCR en 
temps reel est tres sensible puisqu'elle permet de detecter 10 2 copies d f ARN 
synthetique dans 100% des 5 echantillons analyses (29/29 Echantillons dans 8 expe- 

15 riences) et jusqtfa 10 copies d'ARN dans 100% des 5 6chantillons analyses (40/45 
echantillons dans 8 experiences). Elle montre egalement que cette RT-PCR permet de 
detecter la presence du genome du SARS-CoV dans im echantillon et de quantifier le 
nombre de g&iomes presents. A titre d'exemple, TARN viral d'un stock de SARS- 
CoV cultive sur cellules Vero E6 a 6te extrait a l'aide du kit "Qiamp viral RNA 

20 extraction" (Qiagen), dilue a 0,05,10^ et analyse par RT-PCR en temps reel selon le 
protocole decrit ci-dessus; Tanalyse present6e a la figure 12 montre que ce stock de 
virus contient 6,5.1 0 9 g&iomes -^equivalents/ml (geq/ml), ce qui est tout a fait 
similaire a la valeur de 1,0.10 !0 geq/ml mesuree a l'aide du kit "RealArt™ HPA- 
Coronavirus LC RT PCR Reagents 11 commercialise par Artus. 

25 d) d6tection de TARN du SARS-CoV par PCR en temps reel a partir de prelevements 
respiratoires 

Une etude comparative a 6te realisee sur une serie de prelevements 
respiratoires re$us par le Centre National de Reference du Virus Influenzae (region 
nord) et susceptibles de contenir du SARS-CoV. Pour ce faire, TARN a ete extrait des 
30 prelevements a l'aide du kit "Qiamp viral RNA extraction" (Qiagen) et analyse par 
RT-PCR en temps r6el, d'une part a l'aide des couples d'amorces et de sondes de la 



59 

serie n° 2 dans les conditions decrites ci-dessus d'une part, et d'autre part a Taide du 
kit "LightCycIer SARS-CoV quantification kit" commercialise par Roche (reference 
03 604 438). Les r6sultats sont resumes dans le Tableau ci-dessous. lis montrent que 
18 des 26 pr&evements sont negatifs et 5 des 26 pr&evements sont positifs pour les 
5 deux kits, tandis qu'un prelevement est positif pour le seul kit Roche et deux pour les 
seuls reactifs N"serie2 f \ En outre, pour 3 prelevements (20032701, 20032712, 
20032714) les quantity d'ARN detectes sont nettement superieures avec les reactifs 
(sondes et amorces) de la serie n°2. Ces r6sultats indiquent que les amorces et sondes 
N"s6rie2" sont plus sensibles pour la detection du g&iome du SARS-CoV dans des 
1 0 prelevements biologiques que celles du kit actuellement disponible. 

Tableau V: Analyse par RT-PCR en temps reel des ARN extraits (Tune s6rie de 
prelevements de 5 patients a Faide des couples d'amorces et de sondes de la serie 
n° 2 (N "serie 2") ou du kit "LightCycIer SARS-CoV quantification kit" (Roche). 
Le type de prelevement est indique ainsi que le nombre de copies de genome viral 
15 mesurees dans chacun des deux tests. NEG : RT-PCR negative. 



Prelevements n° 


Patient 


Type de prelevement 


KIT ROCHE 


N "serie2" 


20033082 


K 


nasal 


NEG 


NEG 


20033083 


K 


pharyng6 


NEG 


NEG 


20033086 


K 


nasal 


NEG 


NEG 


20033087 


K 


pharynge 


NEG 


NEG 


20032802 


M 


nasal 


NEG 


NEG 


20032803 


M 


expectoration 


NEG 


NEG 


20032806 


M 


nasal ou pharynge 


NEG 


NEG 


20031 746ARN2 


C 


pharynge 


NEG 


NEG 


20032711 


C 


nasal ou pharynge 


39 


NEG 


20032910 


B 


nasal 


NEG 


NEG 


20032911 


6 


pharynge 


NEG 


NEG 


20033356 


V 


expectoration 


NEG 


NEG 


20033357 


V 


expectoration 


NEG 


NEG 


20031725 


K 


asp. endotracheale 


NEG 


150 


20032657 


K 


asp. endotracheale 


NEG 


NEG 


20032698 


K 


asp. endotracheale 


NEG 


NEG 


20032720 


K 


asp. endotracheale 


3 


5 


20033074 


K 


selles 


115 


257 


20032701 


M 


pharynge 


443 


1676 


20032702 


M 


expectoration 


NEG 


249 


20031 747ARN2 


C 


pharynge 


NEG 


NEG 


20032712 


C 


inconnu 


634 


6914 


20032714 


C 


pharynge 


17 


223 


20032800 


B 


nasal 


NEG 


NEG 


20033353 


V 


nasal 


NEG 


NEG 


20033384 


V 


nasal 


NEG 


NEG 
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REVENDICATIONS 

1°) Souche isolee ou purifiee de coronavirus humain associe au 
syndrome respiratoire aigu severe, caracterisee en ce que son genome presente sous la 
5 forme d' ADN complementaire un codon serine en position 23220-23222 du gene de la 
proteine S ou un codon glycine en position 25298-25300 du gene de TORF3, et un 
codon alanine en position 7918-7920 de PORFla ou un codon serine en position 
26857-26859 du gene de la proteine M, lesdites positions etant indiqu6es en refdrence 
a la sequence Genbank AY2741 19.3. 
10 2°) Souche isolee ou purifiee de coronavirus selon la revendication 

1, caracterisee en ce que Tequivalent ADN de son genome presente une sequence 
correspondant a la sequence SEQ ID NO : 1 . 

3°) Polynucleotide isole ou purifie, caracterise en ce que sa sequence 
est celle du genome de la souche isolee de coronavirus selon la revendication 1 ou la 
1 5 revendication 2. 

4°) Polynucleotide isole ou purifie selon la revendication 3, 
caract6rise en ce que sa sequence est la SEQ ID NO : 1. 

5°) Polynucleotide isole ou purifie, caracteris£ en ce que sa sequence 
hybride dans des conditions de forte stringence avec la sequence du polynucleotide 
20 selon la revendication 3 ou la revendication 4. 

6°) Fragment du polynucleotide selon Tune quelconque des revendi- 
cations 3 a 5, caracterise en ce qu'il est susceptible d'etre obtenu, soit par Putilisation 
d' enzymes de restriction dont les dites de reconnaissance et de coupure sont presents 
dans ledit polynucleotide selon Tune quelconque des revendications 3 a 5, soit par 
25 amplification a Taide d'amorces oligonucleotidiques specifiques dudit polynucleotide 
selon Tune quelconque des revendications 3 a 5, soit par transcription in vitro, soit par 
synthese chimique. 

7°) Fragment du polynucleotide selon la revendication 6, caracterise 
en ce qu'il est selectionne dans le groupe constitue par : TADNc coixespondant a au 
30 moins un cadre ouvert de lecture (ORF) choisi parmi : ORFla, ORFlb, ORF-S, ORF- 
E, ORF-M, ORF-N, ORF3, ORF4, ORF7 i ORF11, ORF13 et ORF14, et 1'ADNc 
correspondant aux extremites 5' ou 3' non-codantes dudit polynucleotide. 
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8°) Fragment selon la revendication 6, caracterise en ce qu'il 
presente une sequence selectionnee dans le groupe constitu6 par : 

- les sequences SEQ ID NO : 2 et 4 representant PADNc corres- 
pondant a PORF-S qui code pour la proteine S, 

5 - les sequences SEQ ID NO : 13 et 15 representant PADNc corres- 

pondant a l'ORF-E qui code pour la prot&ne E, 

- les sequences SEQ ID NO: 16 et 18 representant PADNc 
correspondant a PORF-M qui code pour la proline M, 

- les sequences SEQ ID NO : 36 et 38 representant PADNc corres- 
1 0 pondant a 1 9 ORF-N qui code pour la proteine N, 

- les sequences representant les ADNc correspondant respective- 
ment : aux ORFla et ORFlb (SEQ ID NO : 31), aux ORF3 et ORF4 (SEQ ID NO : 7, 
8), aux ORF 7 a 11 (SEQ ID NO : 19, 20), a PORF13 (SEQ ID NO : 32), et a 
PORF14 (SEQ ID NO : 34), 

15 - les sequences representant les ADNc correspondant aux extremites 

5'(SEQ ID NO : 39, 72) et 3' non-codantes (SEQ ID NO : 40, 73) du polynucleotide 
selon la revendication 4. 

9°) Fragment selon la revendication 6, caracterise en ce qu'il 
presente une sequence selectionnee dans le groupe constitue par les sequences SEQ ID 

20 NO : 5, 6, et 41 a 54. 

10°) Fragment selon la revendication 6, caract6rise en ce qu'il 
presente au moins 15 bases ou paires de bases consScutives de la sequence dudit 
polynucleotide incluant au moins une de celles situees en position 7979, 16622, 
19064, 23220, 24872, 25298 et 26857. 

25 11°) Fragment selon la revendication 10, caracterise en ce qu'il 

inclut au moins un couple de bases ou de paires de bases correspondant aux positions 
suivantes : 7919 et 23220, 7919 et 25298, 16622 et 23220, 19064 et 23220, 16622 et 
25298, 19064 et 25298, 23220 et 24872, 23220 et 26857, 24872 et 25298, 25298 et 
26857. 

30 12°) Paire d'amorces apte a amplifier un fragment du genome d'un 

coronavirus associe au SRAS ou de son equivalent ADN, caract&risee en ce qu'elle est 
selectionne dans le groupe constitu£ par : 
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- la paire d'amorces n° 1 correspondant respectivement aux positions 
28507 a 28522 (amorce sens, SEQ ID NO : 60) et 28774 a 28759 (amorce anti-sens, 
SEQ ID NO : 61) de la sequence du polynucleotide selon la revendication 3 ou la 
revendi cation 4, et 

5 - la paire d' amorces n° 2 correspondant respectivement aux positions 

28375 a 28390 (amorce sens, SEQ ID NO : 62) et 28702 k 28687 (amorce anti-sens, 
SEQ ID NO : 63) de la sequence du polynucleotide seloh la revendication 3 ou la 
revendication 4. 

13°) Sonde apte a detecter la presence du genome d'un coronavirus 
10 associe au SRAS ou d'un fragment de celui-ci, caract6ris6e en ce qu'elle est selection- 
nee dans le groupe constitue par : les fragments selon Tune quelconque des revendi- 
cations 6 a 1 1 et les fragments correspondant aux positions suivantes de la sequence 
du polynucleotide selon la revendication 3 ou a la revendication 4: 28561 a 28586, 
28588 a 28608, 28541 a 28563 et 28565 a 28589 (SEQ ID NO : 64 a 67). 
15 14°) Puce ou filtre k ADN ou a ARN, caracterise en ce qu'il 

comprend au moins un polynucleotide ou Fun de ses fragments tels que definis a Tune 
quelconque des revendications 3 a 1 L 

15°) Vecteur de clonage et/ou d' expression recombinant, caracterise 
en ce qu'il comprend un fragment selon Tune quelconque des revendications 6 a 1 1. 
20 16°) Vecteur recombinant selon la revendication 15, caracterise en 

ce qu'il comprend le fragment de sequence SEQ ID NO : 4 et qu'il est compris dans 
une souche bacterienne qui a et6 deposee sous le n° 1-3059, le 20 juin 2003, aupr£s de 
la Collection Nationale de Cultures de Microorganismes, 25 rue du Docteur Roux, 
75724 Paris CedexlS. 

25 17°) Vecteur recombinant selon la revendication 15, caracterise en 

ce qu'il. comprend le fragment de sequence SEQ ID NO;5 et qu'il est compris dans 
une souche bacterienne qui a ete deposee sous le sous le n° 1-3020, le 12 mai 2003, 
aupres de la Collection Nationale de Cultures de Microorganismes, 25 rue du Docteur 
Roux, 75724 Paris Cedex 15. 

30 18°) Vecteur recombinant selon la revendication 15, caracterise en 

ce qu'il comprend le fragment de sequence SEQ ID NO :6 et qu'il est compris dans 
une souche bacterienne qui a ete deposee sous le n° 1-3019, le 12 mai 2003, aupres de 
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la Collection Nationale de Cultures de Microorganismes, 25 rue du Docteur Roux, 
75724 Paris Cedex 15. 

19°) Vecteur recombinant selon la revendication 15, caracterise en 
ce qu'il comprend un fragment de s6quence SEQ ID NO : 8 et qu'il est compris dans 
5 une souche bacterienne qui a 6te deposee sous le n° le n° 1-3126, le, 13 novembre 
2003, aupres de la Collection Nationale de Cultures de Microorganismes, 25 rue du 
Docteur Roux, 75724 Paris Cedex 15. 

20°) Vecteur recombinant selon la revendication 15, caract6rise en 
ce qu'il comprend le fragment de sequence SEQ ID NO : 15 et qu'il est compris dans 
1 0 une souche bacterienne qui a ete deposee sous le n° 1-3046, le 28 mai 2003, aupres de 
la Collection Nationale de Cultures de Microorganismes, 25 rue du Docteur Roux, 
75724 Paris Cedex 15. 

21°) Vecteur recombinant selon la revendication 15, caracteris6 en 
ce qu'il comprend un fragment de sequence SEQ ID NO :18 et qu'il est compris dans 
15 une souche bacterienne qui a ete deposee sous le n° 1-3047, le 28 mai 2003, aupres de 
la Collection Nationale de Cultures de Microorganismes, 25 rue du Docteur Roux, 
75724 Paris Cedex 15. 

22°) Vecteur recombinant selon la revendication 1 5, caracteris6 en 

ce qu'il comprend un fragment de sequence SEQ ID NO :20 et qu'il est compris dans 
20 une souche bacterienne qui a ete deposee sous le n° 1-3125, le 13 novembre 2003, 

aupres de la Collection Nationale de Cultures de Microorganismes, 25 rue du Docteur 

Roux, 75724 Paris Cedex 15. 

23°) Vecteur recombinant selon la revendication 1 5, caract6ris6 en 

ce qu'il comprend un insert de sequence SEQ ID NO :38 et qu'il est compris dans une 
25 souche bact6rienne qui ete deposee sous le n° 1-3048, le 5 juin 2003, aupres de la 

Collection Nationale de Cultures de Microorganismes, 25 rue du Docteur Roux, 

75724 Paris Cedex 15. 

24°) Vecteur recombinant selon la revendication 15, caracterisS en 
ce qu'il comprend un fragment de sequence SEQ ID NO : 39 et qu'il est compris dans 
30 une souche bacterienne qui a ete deposee sous le n° I- 3124, le 7 novembre 2003, 
aupres de la Collection Nationale de Cultures de Microorganismes, 25 rue du Docteur 
Roux, 75724 Paris Cedex 15. 
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25°) Vecteur recombinant selon la revendication 15, caracteris6 en 
ce qu'il comprend un fragment de sequence SEQ ID NO : 40 et qu'il est compris dans 
une souche bacterienne qui a ete deposee sous le n° 1-3123 le 7 novembre 2003, 
aupres de la Collection Nationale de Cultures de Microorganismes, 25 rue du Docteur 
5 Roux, 75724 Paris Cedex 15. 

26°) Vecteur d'expression recombinant selon la revendication 15, 
caracterise en ce qu'il contient un fragment d'ADNc selectionne dans le groupe 
constitue par : 

- un fragment d'ADNc codant pour une fusion C-terminale de la 
1 0 proteine N (SEQ ID NO : 37) avec une Etiquette polyhistidine, 

- un fragment d'ADNc codant pour une fusion C-terminale du 
fragment correspondant aux positions 475 a 1 193 de la sequence en acides amines de 
la proteine S (SEQ ID NO : 3) avec une etiquette polyhistidine, 

- un fragment d'ADNc codant pour une fusion C-terminale du 
15 fragment correspondant aux positions 14 a 1 193 de la sequence en acides amines de la 

proteine S (SEQ ID NO : 3) avec une etiquette polyhistidine, 

- un fragment d'ADNc codant pour une fusion N-terminale de la 
proteine N (SEQ ID NO : 3) avec une etiquette polyhistidine, 

- un fragment d'ADNc codant pour une fusion N-terminale du 
20 fragment correspondant aux positions 475 a 1 193 de la sequence en acides amines de 

la proteine S (SEQ ID NO : 3) avec une etiquette polyhistidine, et 

- un fragment d'ADNc codant pour une fusion N-terminale du 
fragment correspondant aux positions 14 a 1 193 de la sequence en acides amines de la 
proteine S (SEQ ID NO : 3) avec une etiquette polyhistidine. 

25 27°) Vecteur d'expression recombinant selon la revendication 26, 

caracterise en ce qu'il est compris dans une souche bactdrienne qui a ete d6pos6e sous 
le n° I- 3117, le 23 octobre 2003, aupres de la Collection Nationale de Cultures de 
Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15. 

28°) Vecteur d'expression recombinant selon la revendication 26, 

30 caracterise en ce qu'il est compris dans une souche bacterienne qui a ete deposee sous 
le n° I- 3118, le 23 octobre 2003, aupres de la Collection Nationale de Cultures de 
Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15. 
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25°) Vecteur recombinant selon la revendication 15, caract6ris<5 en 
ce qu'il comprend un fragment de sequence SEQ ID NO : 40 et qu'il est compris dans 
une souche bacterienne qui a ete deposee sous le n° 1-3123 le 7 novembre 2003, 
aupres de la Collection Nationale de Cultures de Microorganismes, 25 rue du Docteur 
5 Roux, 75724 Paris Cedex 1 5. 

26°) Vecteur d'expression recombinant selon la revendication 15, 
caracterise en ce qu'il contient un fragment d'ADNc selectionne dans le groupe 
constitu6 par : 

- un fragment d'ADNc codant pour une fusion C-terminale de la 
1 0 proline N (SEQ ID NO : 37) avec une Etiquette polyhistidine, 

- un fragment d'ADNc codant pour une fusion C-terminale du 
fragment correspondant aux positions 475 a 1 193 de la sequence en acides amines de 
la proline S (SEQ ID NO : 3) avec une etiquette polyhistidine, 

- un fragment d'ADNc codant pour une fusion C-terminale du 
15 fragment correspondant aux positions 14 a 1 193 de la sequence en acides amines de la 

proteine S (SEQ ID NO : 3) avec une etiquette polyhistidine, 

- un fragment d'ADNc codant pour une fusion N-terminale de la 
proteine N (SEQ ID NO : 37) avec une etiquette polyhistidine, 

- un fragment d'ADNc codant pour une fusion N-terminale du 
20 fragment correspondant aux positions 475 a 1 193 de la sequence en acides amines de 

la proteine S (SEQ ID NO : 3) avec une etiquette polyhistidine, et 

- un fragment d'ADNc codant pour une fusion N-terminale du 
fragment correspondant aux positions 14 a 1 193 de la sequence en acides amines de la 
proteine S (SEQ ID NO : 3) avec une etiquette polyhistidine. 

25 27°) Vecteur d'expression recombinant selon la revendication 26, 

caracterise en ce qu'il est compris dans une souche bacterienne qui a 6U deposee sous 
le n° I- 31 17, le 23 octobre 2003, aupres de la Collection Nationale de Cultures de 
Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15. 

28°) Vecteur d'expression recombinant selon la revendication 26, 

30 caracterise en ce qu'il est compris dans une souche bacterienne qui a 6t6 deposee sous 
le n° 1- 31 18, le 23 octobre 2003, aupres de la Collection Nationale de Cultures de 
Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15. 
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29°) Banque d'ADNc, caract6ris6e en ce qu'elle comprend des 
fragments selon Tune quelconque des revendications 6 a 1 1. 

30°) Cellules modifiees par un vecteur selon Fune quelconque des 
revendications 1 5 a 28 ou une banque selon la revendication 29- 
5 31°) Proteine ou peptide isote ou purifie, caracterise en ce qu'il est 

code par le polynucleotide selon Tune quelconque des revendications 3 a 5 ou Tun de 
ses fragments selon Tune quelconque des revendications 6 a 1 1. 

32°) Proteine isolee ou purifiee selon la revendication 31, caracteri- 
see en ce qu'elle est s61ectionn6e dans le groupe constitue par : 
10 - la proteine S de sequence SEQ ID NO :3 , 

- la proteine E de sequence SEQ ID NO : 14, 

- la proline M de sequence SEQ ID NO : 17, 

- la proteine N de sequence SEQ ID NO : 37, et 

- les proteines codees par les ORF : ORFla, ORFlb, ORF3, ORF4 et 
15 ORF7 a ORF11, ORF13 et ORF14 de sequence respectivement, SEQ ID NO :74, 75, 

1 0, 12, 22, 24, 26, 28, 30, 33 et 35 . 

33°) Peptide isote ou purifie selon la revendication 31, caracterise en 
ce qu'il est s61ectionn6 dans le groupe constitue par : 

a) les peptides correspondant aux positions 14 a 1 193 et 475 h 1 193 
20 de la sequence en acides amines de la proteine S, 

b) les peptides correspondant aux positions 2 a 14 (SEQ ID NO : 69) 
et 100 a 221 de la sequence en acides amines de la proteine M ; et 

c) les peptides correspondant aux positions 1 a 12 (SEQ ID NO : 70) 
et 53 h 76 (SEQ ID NO : 71) de la sequence en acides amines de la prot&ne E ; et 

25 d) les peptides de 5 k 50 acides amines consecutifs, de preference de 

10 a 30 acides amines, inclus ou chevauchant partiellement ou totalement la sequence 
des peptides tels que definis en a), b) ou c). 

34°) Peptide selon la revendication 31, caractdrise en ce qu'il 
presente une sequence de 7 a 50 incluant un r6sidu d'acide amine selectionne dans le 

30 groupe constitue par : 



65 

29°) Banque d'ADNc, caracterisSe en ce qu'elle comprend des 
fragments selon Tune queJconque des revendications 6 a 11. 

30°) Cellules modifiees par un vecteur selon Tune quelconque des 
revendications 15 a 28 ou une banque selon la revendication 29. 

31°) Prot&ne ou peptide isole ou purifie, caract&ise en ce qu'il est 
code par le polynucleotide selon Tune quelconque des revendications 3 a 5 ou Tun de 
ses fragments selon Tune quelconque des revendications 6 a 1 1 . 

32°) Proteine isolee ou puriftee selon la revendication 31, caracteri- 
see en ce qu'elle est s61ectionn£e dans le groupe constitue par : 

- la proline S de sequence SEQ ID NO :3 , 

- la proteine E de sequence SEQ ID NO : 14, 

- la proteine M de sequence SEQ ID NO : 1 7, 

- la proline N de sequence SEQ ID NO : 37, et 

- les proteines cod6es par les ORF : ORFla, ORFlb, ORF3, ORF4 
et ORF7 a ORF1 1, ORF13 et ORF14 de sequence respectivement, SEQ ID NO :74, 
75, 10, 12, 22, 24, 26, 28, 30, 33 et 35 . 

33°) Peptide isole ou purifie selon la revendication 31, caracterise en 
ce qu'il est selection^ dans le groupe constitue par : 

a) les peptides correspondant aux positions 14 a 1 193 et 475 a 1 193 
de la sequence en acides amines de la proline S, 

b) les peptides correspondant aux positions 2 a 14 (SEQ ID NO : 69) 
et 100 a 221 de la sequence en acides amines de la proteine M ; et 

c) les peptides correspondant aux positions 1 a 12 (SEQ ID NO : 70) 
et 53 a 76 (SEQ ID NO : 71) de la sequence en acides amines de la proteine E ; et . 

d) les peptides de 5 a 50 acides amines cons6cutifs, de preference de 
10 a 30 acides amines, inclus ou chevauchant partiellement ou totalement la sequence 
des peptides tels que d6finis en a), b) on c). 

34°) Peptide selon la revendication 31, caracterise en ce qu'il est 
constitue de 7 a 50 acides amines consecutifs cod6s par un fragment tel que defini a la 
revendication 10, Iequel peptide est s61ectionn(§ dans le groupe constitue par : 

-un peptide comprenant V alanine situ6e en position 2252 de la 
sequence en acides amines de la proteine codee par P ORF la, 
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- Falanine situSe en position 2252 de la sequence en acides amines 
de la proline codee par FORFla de la souche isolee de coronavirus telle que definie a 
larevendication 1 ou a la revendication 2, 

- la serine situ6e en position 577 de la sequence en acides amines de 
5 la proteine S de la souche isolee de coronavinis telle que d6finie a la revendication 1 

ou a la revendication 2, 

- la glycine en position 11 de la sequence en acides amines de 
TORF3 de la souche isolee de coronavirus telle que definie a la revendication 1 ou a la 
revendication 2, et 

10 - la serine en position 154 de la sequence en acides amines de la 

proteine M de la souche isolee de coronavirus telle que definie k la revendication 1 ou 
a la revendication 2. 

35°) Anticorps ou fragment d'anticoips monoclonal ou polyclonal, 
susceptible d'etre obtenu par immunisation d'un animal avec un vecteur recombinant 

15 selon Tune quelconque des revendications 15 a 28, une banque selon la revendication 
29, ou bien une proteine ou un peptide selon Tune quelconque des revendications 31a 
34, caracteris6 en ce qu'il se lie avec Tune au moins des proteines codees par le 
genome de la souche isolee ou purifie de coronavirus, telles que definies a la 
revendication 31. 

20 36°) Puce ou filtre a proteine ou a peptide, caracterise en ce qu'il 

comprend une proteine ou un peptide selon Tune quelconque des revendications 31a 
34 ou bien un anticorps ou un fragment d'anticorps selon la revendication 35. 

37°) R6actif de d6tection d'un coronavirus associe au SRAS, 
caracteris6 en ce qu'il est selectionne dans le groupe constitue par : 

25 (a) une paire d'amorces selon la revendication 12, une sonde selon la 

revendication 13, ou une puce ou filtre a ADN pu h ARN selon la revendication 14, 

(b) un vecteur recombinant selon Tune quelconque des revendica- 
tions 15 a 26 ou une cellule modifiee selon la revendication 28, 

(c) une souche iso!6e de coronavirus selon la revendication 1 ou la 
30 revendication 2 ou un polynucleotide selon Tune quelconque des revendications 3 a 5, 

(d) une prot6ine ou un peptide selon Tune quelconque des revendi- 
cations 31 a 34, 
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- un peptide comprenant la serine situee en position 577 de la 
sequence en acides amines de la proteine S , 

- un peptide comprenant la glycine en position 1 1 de la sequence en 
acides amines de la proline cod6e par FORF3, et 

5 - un peptide comprenant la serine en position 154 de la sequence en 

acides amines de la proline M. 

35°) Anticorps ou fragment d'anticorps monoclonal ou polyclonal, 
susceptible d'etre obtenu par immunisation d'un animal avec un vecteur recombinant 
selon Tune quelconque des revendications 15 a 28, une banque selon la revendication 
10 29, ou bien une proteine ou un peptide selon Tune quelconque des revendications 31a 
34, caracterise en ce qu'il se lie avec l'une au moins des proteines codees par le 
genome de la souche isotee ou purifI6 de coronavirus, telles que ddfinies a la 
revendication 31. 

36°) Puce ou filtre a proteine ou a peptide, caracterise en ce qu'il 
1 5 comprend une proteine ou un peptide selon l'une quelconque des revendications 31 a 
34 ou bien un anticorps ou un fragment d'anticorps selon la revendication 35. 

37°) R6actif de detection d'un coronavirus associ6 au SRAS, 
caracterise en ce qu'il est selection^ dans le groupe constitu£ par : 

(a) une paire d 5 amorces selon la revendication 12, une sonde selon la 
20 revendication 1 3, ou une puce ou filtre a ADN ou a ARN selon la revendication 14, 

(b) un vecteur recombinant selon Tune quelconque des revendica- 
tions 1 5 a 28 ou une cellule modifiee selon la revendication 30, 

(c) une souche isotee de coronavirus selon la revendication 1 ou la 
revendication 2 ou un polynucleotide selon l'une quelconque des revendications 3 a 5, 

25 (d) proteine ou un peptide selon l'une quelconque des revendi- 

cations 31 a 34, 

(e) un anticorps ou un fragment d'anticorps selon la revendication 

35, et 

(f) une puce ou un filtre a proteine ou h peptide selon la revendica- 

30 tion 36. 

38°) Utilisation d'un produit selectionnd dans le groupe constitug 
par : une paire d'amorces selon la revendication 12, une sonde selon la revendication 



67 

(e) un anticorps ou un fragment d'anticorps selon la revendication 

35, et 

(f) une puce ou un filtre a proteine ou a peptide selon la revendica- 
tion 36. 

5 38°) Utilisation d'un produit selectionne dans le groupe constitue 

par : une paire d' amorces selon la revendication 12, une sonde selon la revendication 
13, une puce ou un filtre a ADN ou a ARN selon la revendication 14, un vecteur 
recombinant selon Tune quelconque des revendications 15 a 28, une cellule modifiee 
selon la revendication 30, une souche isolee de coronavirus selon la revendication 1 

10 ou la revendication 2, un polynucleotide selon Tune quelconque des revendications 3 a 
5, pour la preparation d'un reactif de detection et 6ventuellement de genotypage d'un 
coronavirus associe au SRAS. 

39°) Methode de detection d'un coronavirus associe au SRAS, a 
partir d'un echantillon biologique, laquelle methode est caracterisee en ce qu'elle 

15 comprend au moins : 

(a) Textraction d'acides nucleiques presents dans ledit echantillon 

biologique, 

(b) l'amplification d'un fragment de l'ORF-N par RT-PCR a l'aide 
d'un couple d' amorces selon la revendication 12, et 

20 (c) la detection par tout moyen approprie des produits 

d' amplifications obtenus en (b). 

40°) Methode selon la revendication 39, caracterise en ce que Tetape 
(b) de detection est realisSe a l'aide d'au moins une sonde correspondant aux positions 
28561 k 28586, 28588 a 28608, 28541 a 28563 et 28565 k 28589 de la sequence du 

25 polynucleotide selon Tune quelconque des revendications 3 & 5. 

41°) Kit ou coffret de detection d'un coronavirus associe au SRAS, 

caracteris6 en ce qu'il comprend au moins un reactif selectionne dans le groupe 
constitu6 par : une paire d'amorces selon la revendication 12, une sonde selon la 
revendication 13, une puce ou un filtre a ADN ou a ARN selon la revendication 14, un 

30 vecteur recombinant selon Tune quelconque des revendications 15 a 28, une cellule 
modifiee selon la revendication 30, une souche isolee de coronavirus selon la 
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13, une puce ou un filtre a ADN ou a ARN selon la revendication 14, un vecteur 
recombinant selon l'une quelconque des revendications 15 a 28, une cellule modifiee 
selon la revendication 30, une souche isolee de coronavirus selon la revendication 1 
ou la revendication 2, un polynucleotide selon l'une quelconque des revendications 3 
5 a 5, pour la preparation d'un reactif de detection et eventuellement de genotypage 
d'un coronavirus associe au SRAS. 

39°) Methode de detection d'un coronavirus associ6 au SRAS, a 
partir d'un echantillon biologique, laquelle methode est caracterisee en ce qu'elle 
comprend au moins : 

10 ( a ) l'extraction d'acides nucleiques presents dans ledit echantillon 

biologique, 

(b) l'amplification d'un fragment de l'ORF-N par RT-PCR a 1'aide 
d'un couple d'amorces selon la revendication 12, et 

(c) la detection par tout moyen approprie des produits 
1 5 d'amplifications obtenus en (b). 

40°) Methode selon la revendication 39, caracterise en ce que I'etape 
(c) de detection est realisee a 1'aide d'au moins une sonde correspondant aux positions 
28561 a 28586, 28588 a 28608, 28541 a 28563 et 28565 a 28589 de la sequence du 
polynucleotide selon l'une quelconque des revendications 3 a 5. 

^ 41°) Kit ou coffret de detection d'un coronavirus associe au SRAS, 

caracterise en ce qu'il comprend au moins un reactif s61ectionne dans le groupe 
conslitue par : une paire d'amorces selon la revendication 12, une sonde selon la 
revendication 13, une puce ou un filtre a ADN ou a ARN selon la revendication 14, un 
vecteur recombinant selon l'une quelconque des revendications 15 a 28, une cellule 

25 modifiee selon la revendication 30, une souche isolee de coronavirus selon la 
revendication 1 ou la revendication 2 et un polynucleotide selon l'une quelconque des 
revendications 3 a 5. 



68 

revendication 1 on la revendication 2 et un polynucleotide selon l'une quelconque des 
revendications 3 a 5. 
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>< 



ATATTAGGTT TTTACCTACC 
10 20 



>< ScrFI 

>< Mval > 
EcoRII > 
>< Ecll36I 
DsaV 

>< BstOI 
X BstNI 
>< BsiLI 
BsaJI 
>< Apyl 

CAGGAAAAGC CAACCAACCT 
30 40 



>< XhoII 
>< Sau3AI 

< TthHB8I >< Ndell 

< TaqI >< Mfll 
>< Sau3AI >< Mbol 
>< Ndell >< DpnII 
X Mboix Mnlix Dpnl 
X DpnII X BstYI 

X Dpnl X BspAI 
X BspAI X Bspl43I 

X Bspl43IX Bglll 
CGATCTCTTG TAGATCTGTT CTCTAAACGA 
50 60 70 



x Vnel 
>< SphI 

X Snol 
>< Rmal 
>< Pael >< Sdul 
X Nspl X NspII 
X NspHI X HgiAI 
X Nlalll X Bspl286I 
X Ma el X Bmyl 
>< Tru9I >< ApaLI 

x Msel >< Bbvl >< Alw4 4I 

x Dral x Alul > < Fnu4HI x Alw21I 

ACTTTAAAAT CTGTGTAGCT GTCGCTCGGC TGCATGCCTA GTGCACCTAC GCAGTATAAA CAATAATAAA 
80 90 100 110 120 130 140 



X Hindll 
>< Hindi 



X 



> < MboII 
Maelll 



X 



Sfcl 
x PstI 
X Mnll 
X Ksp632I 
X Earl 
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TTTTACTGTC GTTGACAAGA AACGAGTAAC TCGTCCCTCT TCTGCAGACT GCTTACGGTT TCGTCCGTGT 
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TGCAGTCGAT CAT CAGCATA CCTAGGTTTC GTCCGGGTGT GACCGAAAGG TAAGATGGAG AGCCTTGTTC 

220 230 240 250 260 270 280 



X Rmal 
X Esp3I X Maell 
X Hindll X MaeII> < Eco57I X BsmAI x Mael 

X Hindi > < Afllll > < Ddel X Alw26I X BsmBI 

TTGGTGTCAA CGAGAAAACA CACGTCCAAC TCAGTTTGCC TGTCCTTCAG GTTAGAGACG TGCTAGTGCG 
290 300 310 320 330 340 350 



FIGURE 13.1 
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>< Sau96I 

>< PssI 
X Pall 
>< NspIV 
>< Mnll 
X Haelll 
>< Eco0109I 

>< DrallX MboII >< Pmll 
>< Cfrl3I >< PmaCI 

>< BsuRI > < Maell 

>< BsiZlX EcoNI >< Eco72I 
X BshI >< BslI >< BsaAI 
>< Plel >< Eamll04I>< Asul >< BsiYlx BbrPI X Mnll 

TGGCTTCGGG GACTCTGTGG AAGAGGCCCT ATCGGAGGCA CGTGAACACC TCAAAAATGG CACTTGTGGT 
360 370 380 390 400 410 420 



X 



x Mnll 
x Ksp632I 
Hinfl 
X Earl 



X Tru9l 

x Rsal X SfaNI 

>< Rmal X Csp6I X BspWI x Msel 

X Mael >< Alul X Afal X Alul > < Maell 

CTAGTAGAGC TGGAAAAAGG CGTACTGCCC CAGCTTGAAC AGCCCTATGT GTTCATTAAA CGTTCTGATG 
430 440 450 460 470 480 490 



>< Tru9I 
X Msel 
X Esp4I 
X Aflll 



X Pall 
x Haelll 

X Gdill 

X Eael 
>< BsuRI 
X BshI 



X Alul 



>< Rsal 
Mcrl x 
x Csp6I 
X Bsml BsiEI X 
>< BscCI >< Afal 



CCTTAAGCAC CAATCACGGC CACAAGGTCG TTGAGCTGGT TGCAGAAATG GACGGCATTC AGTACGGTCG 



500 
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520 



530 



540 
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560 



X Nspl 
X NspHI 
X Nlalll 

X BslI X MboII 

X BsiYI X MboII 

x Acil x Afal x AflHI x Muni >< Acil 

TAGCGGTATA ACACTGGGAG TACTCGTGCC ACATGTGGGC GAAACCCCAA TTGCATACCG CAATGTTCTT 
570 580 590 600 610 620 630 



>< Seal 
X Rsal 
> < Csp6I 
>< BsrI 

x Afal 



X TthHB8I 
>< TaqI 
X Sau3AI 
>< Ndell 
X Mbol 
X DpnII 
> < Dpnl 
x Clal 
x BsulSI 
>< BspDI 

X NlalV X BspAI 

X Mspl > < Bspl4 3I 

X Hpall x Bspl06I 

X HapII x BsiXI Maelll > 

X CfrlOI x BsclX SfaNI Ddel >< 

X BscBI >< Alul >< Banlll Bfrl >< 

CTTCGTAAGA ACGGTAATAA GGGAGCCGGT GGTCATAGCT ATGGCATCGA TCTAAAGTCT TATGACTTAG 
640 650 660 670 680 690 700 



FIGURE 13.2 
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>< Sau3AI 
>< Ndell 
>< Mbol 

>< HphI VneI >< 

>< DpnII Sno1 >K 

>< BspAI > < Nlalll 

>< AlwIX Dpnl . >< Ddel ApaLI >< 

X Alul >< Bspl43I >< MboII >< BsrI Alw4 4I >< 

GTGACGAGCT TGGCACTGAT CCCATTGAAG ATTATGAACA AAACT GGAAC ACTAAGCATG GCAGTGGTGC 



710 



720 



730 



740 



750 



760 



770 



>< Sdul 
>< NspII 
>< HgiAI 

>< Dralll 
>< Bspl286I 
>< Bmyl 
>< Alw21I 



>< SstI 
>< Sdul 
>< SacI 
>< NspII 

>< Mnll 
>< HgiAI 
X Eco24I 

>< EC1136II 
>< Bspl286l 
>< Bmyl 
X Banll 
X Alw21I 

X Alul 



X Maelll 



X TthHB8I 
X TaqI 

> < Sail 

> < Rtrl 

>< Hindll 
X Hindi 
X Bsgl 
X AccI 



ACTCCGTGAA CTCACTCGTG AGCTCAATGG AGGTGCAGTC ACTCGCTATG TCGACAACAA 



780 



790 



800 



810 



820 



830 



Sau96I x 
Pall x 
NspIV X 
Haelll x 
Cfrl3I x 
BsuRI >< 
BsiZI >< 
BshI X 
Asul >< 
TTTCTGTGGC 
840 
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X TthHB8l 
>< TthHB8I 

X TaqI 
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x Ksp632I 
>< Hinfix Plel 

x Eamll04I >< MboII >< Maelll 

x Earl > < Bbvix AccI X Fnu4HI 
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FIGURE 13.3 
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>< Mval 
>< Ecll36I 
>< BstOI 
X BstNI 
>< BsiLI 



>< Hin6I 
>< Hhal 
>< Haell 
>< Eco47III 
>< Cfol 



>< Sdul 
>< NspII 
X HgiAI 
>< Bspl286I 
>< Bmyl 
>< Alw21I 



>< Csp4 51 
>< BstBI 
>< Bspll9I 
>< BsiCI 
>< Bpul4I 
>< Asull 



>< Apyl >< Ddel >< Bspl4 3II X Alul 

CTGGTTCACT GAGCGCTCTG ATAAGAGCTA CGAGCACCAG ACACCCT TCG^AAAT TAAGAG TGCCAAGAAA 
990 1Q 00 1010 1020 . 1030 1040 1050 

>< Tru91 
>< BsmI >< Msel 

>< BscCI > < MnlI 

TTTGACACTT TCAAAGGGGA ATGCCCAAAG TTTGTGTTTC CTCTTAACTC AAAAGTCAAA GTCATTCAAC 
1060 1070 1080 1090 1100 1110 1120 

>< Pmll 
>< PmaCI 
>< Maell 
>< Eco72I 

X BbJ^ >< NlaI11 >K RsaI 

s , n ^;; >< Bstll07I >< Csp6I 

X Afllll >< MnllX Ddel >< AccI >< A f aI 

CACGTGTTGA AAAGAAAAAG ACTGAGGGTT TCATGGGGCG TATACGCTCT GTGTACCCTG TTGCATCTCC 
1130 1140 H50 1160 1170 1180 1190 

>< SfaNI 

X Maelll >< AccI Nlaiu >< 

ACAGGAGTGT AACAATATGC ACTTGTCTAC CTTGATGAAA TGTAATCATT GCGATGAAGT TTCATGGCAG 
1200 1210 1220 1230 1240 1250 1260 

>< SinI 
x Sau96I 
PssI x 
X Psp5II 
>< PpuMI 
X NspIV 

X NspHII 
X Eco47I 
>< Drall 
X Cfrl3I 
X BsiZI 
X Bmel8I 
X Avail 

X Maell ><C AsuI 

ACGTGCGACT TTCTGAAAGC CACTTGTGAA CATTGTGGCA CTGAAAATTT AgJSSSSE gSSStA 
1270 1280 1290 1300 1310 1320 1330 



x RsaI 
>< Nspl 

>< NlalV 
>< Nlalll 
X NspHlx Kpnl 
. >< Eco64I 
>< Csp6I 
>< BscBI 
>< BanI 
>< Asp718 
X Afal 
X AccBlI 
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PflMI X 
NspIV >< 
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Cfrl3I x 
BslI >< 
BsiZI X 
BsiYI X 
Bmel8I x 
Avail >< 
AsuI >< 



FIGURE 13. 4 
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>< Acc65I >< Sfcl >< Nlalll AccB7I >< 

CATGTGGGTA CCTACCTACT AATGCTGTAG TGAAAATGCC ATGTCCTGCC TGTCAAGACC CAGAGATTGG 
1340 1350 1360 1370 1380 1390 1400 

>< TthHB8I 
>< TaqlX Mnll 
>< Hinfl 

>< Ddel >< Plel >< Acil 

ACCTGAGCAT AGTGTTGCAG ATTATCACAA CCACTCAAAC ATTGAAACTC GACTCCGCAA GGGAGGTAGG 
1410 1420 1430 1440 1450 1460 1470 

>< Rmal NlalV >< 

>< Mnll >< BsrI 

>< Mael >< Bbvl >< Fnu4HI BscBI x 

ACTAGATGTT TTGGAGGCTG TGTGTTTGCC TATGTTGGCT GCTATAATAA GCGTGCCTAC TGGGTTCCTC 

1480 1490 1500 1510 1520 1530 1540 

XhoII >< 
Sau3AI X 
Ndell >< 
Mfll >< 

>< Maelll Mbol >< 

>< Pall >< Eco31I DpnII >< 

>< Haelll >< BsrI >< Mnll Dpnl > 

>< Rmal >< BsuRI >< BsrI >< BsmAI BstYI >< 

>< Mnll > < Ddel >< BspWI >< BsalX HphI BspAI >< 

>< Mael >< BshlX Bgll X Alw26I Bspl43I > 

GTGCTAGTGC TGATATTGGC TCAGGCCATA CTGGCATTAC TGGTGACAAT GTGGAGACCT TGAATGAGGA 
1550 1560 1570 1580 1590 1600 161'0 

> < Tru9I 

> < Msel 

x Maell >< Tru9I 

X Hpal > < Mnll 

X Hindu > < Ksp632I 

x Hinfl >< Plel X Hindi > < Earl 

X Alwl x Ddel >< Afllll X Msel > < Eamll04I 
TCTCCTTGAG ATACTGAGTC GTGAACGTGT TAACATTAAC ATTGTTGGCG ATTTTCATTT GAATGAAGAG 

1620 1630 1640 1650 1660 1670 1680 

X MboII Plel X 

X BstXI >< SfaNI > < Hinfl 

GTTGCCATCA TTTTGGCATC TTTCTCTGCT TCTACAAGTG CCTTTATTGA CACTATAAAG AGTCTTGATT 
1690 1700 1710 1720 1730 1740 1750 

X Styl 
X Maelll 

. . . .... X EcoT14I 

x Plel x Ecol30I 

X Maelll >< BssTlI BslI X 

x Hinfix Acil >< BsaJI BsiYI >< 

ACAAGTCTTT CAAAACCATT GTTGAGTCCT GCGGTAACTA TAAAGTTACC AAGGGAAAGC C CGT AAAAGG 
1760 1770 
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FIGURE 135 
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TGCTTGGAAC ATTGGACAAC AGAGATCAGT TTTAACACCA CTGTGTGGTT TTCCCTCACA GGCTGCTGGT 
1830 1840 1850 I860 1870 1880 1890 

>< Thai 
>< SfaNI 
>< Mvnl 
>< HinPlI 
>< HinPlI 

>< Hin6I 
>< Hin6X 

>< Hhal 
>< Hhal 

>< Cfol PvuII > 

>< Cfol PspSI > 

>< BstUI NspBII > 

X BssHII HphI X 

X Bsp50I Fnu4HI X 

X AccII X Fnu4HI X Bbvl Alul > 

GTTATCAGAT CAATTTTTGC GCGCACACTT GATGCAGCAA ACCACTCAAT TCCTGATTTG CAAAGAGCAG 
1900 1910 1920 1930 1940 1950 1960 



>< Sau3AI 
X Ndell 
x Mbol 
>< DpnII 

>< Dpnl 
>< BspAI 

X Bspl43I 



X TthHB8I 

X Styl 
X Ncol 
>< Hindll 
X Hindi 
>< Hinll 

X EcoT14I 
>< Eco57I 
X TaqlX Ecol30I 
>< Sail >< Dsal 
>< Rtrl X BssTlI 
X BsaHI 

X Bbillx Nlalll 
x Maelll >< AcyI >< HgaI 

X Bbvl >< Maell x AccIX BsaJI HphI X 

CTGTCACCAT ACTTGATGGT ATTTCTGAAC AGTCATTACG TCTTGTCGAC GCCATGGTTT ATACTTCAGA 
1970 1980 1990 2000 2010 2020 2030 



x Rsal 

>< Ndel > < Csp6I 

>< BspMI >< Maelll X BsrI >< Afal >< Ddel 

CCTGCTCACC AACAGTGTCA TTATTATGGC ATATGTAACT GGTGGTCTTG TACAACAGAC TTCTCAGTGG 
2040 2050 2060 2070 2080 2090 2100 

X StuI 
X Pall 
X Haelll 
x Ecol47I 
>< Ddel 

x BsuRI 
x BshI 
>< AatI 



X Sdul 
>< NspII 
X Bspl286l 
X Bmyl 



> < Mnll 



Ddel 
Bfrl 



>< 

X 



TTGTCTAATC TTTTGGGCAC TACTGTTGAA AAACTCAGGC CTATCTTTGA ATGGATTGAG GCGAAACTTA 



2110 



2120 



2130 



2140 



2150 



2160 



2170 



X Tfil 

x Hinfl Tthllll x 

x SfaNI X Bsgl >< Fokl . A spl >< 

GTGCAGGAGT TGAATTTCTC AAGGATGCTT GGGAGATTCT CAAATTTCTC ATTACAGGTG TTTTTGACAT 
2180 2190 2200 2210 2220 2230 ^ 2240 



FIGURE 13.6 
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Tru9I >< 
Msel X 
Hpal > 
Hindll > 

>< Eco57I Hindi > 

CGTCAAGGGT CAAATACAGG TTGCTTCAGA TAACATCAAG GATTGTGTAA AATGCTTCAT TGATGTTGTT 



2250 . 



2260 



2270 



2280 



2290 



2300 



2310 



>< Sau3AI 
>< Ndell 
X Mbol 

> < Maelll 

>< Fbal 
>< DpnII 

>< Dpnl 

>< BspAI >< HinPlI 

>< Bspl43I >< Hin6I 

X TthHB8I X BsiQI >< Hhal 

>< TaqI >< Bell >< Cfol 

AACAAGGCAC TCGAAATGTG CATTGATCAA GTCACTATCG CTGGCGCAAA GTTGCGATCA CTCAACTTAG 
2320 2330 2340 2350 2360 2370 2380 



>< Sau3AI 
>< Ndell 
>< DpnII 

>< DpnIMboII >< 

Ddel >< 
>< Bspl43I 
>< MboIBfrl >< 
>< BspAI Bbsl >< 



>< HphI 



>< DrdI 



>< Maell 
>< Bstll07I 
>< BsaAI 
>< Bbvl 
>< AccI 



>< PvuII 
>< PspSI 
>< NspBII 
Fnu4HI X 

> < Fnu4HI 
X Alul 



GTGAAGTCTT CATCGCTCAA AGCAAGGGAC TTTACCGTCA GTGTATACGT GGCAAGGAGC AGCTGCAACT 

2390 2400 2410 2420 2430 2440 2450 

X Tru9I 

X NlalV 
>< Msel 

X Mnll 

x Esp4I >< seal 

x Eco64I >< R S al 

>< BscBI >< NlaHIMnll X 

>< Nlalll >< BanI Mnll x 

>< Aflll >< Tfil >< Csp6I 

X Bbvl >< AccBlI x Maelll X Hinfl X HphI >< Afal 
ACTCATGCCT CTTAAGGCAC CAAAAGAAGT AACCTTTCTT GAAGGTGATT CACATGACAC AGTACTTACC 

2460 2470 2480 2490 2500 2510 2520 



> < Xhol 

X TthHB8I 
X TthHB8lx TaqI 
> < Slal . ... 

> < PaeR7I 

> < NspIII 

>< HphI >< Hinll 

> < Eco88I 

> < Ccrl 

>< Esp3I >< BsaHI 

> < Bcol 

X BsmAI >< Bbill 

> < Aval >< Hgal 
X TaqI > < Ama87I>< BsmBI 

x DdelX Mnll >< Alw26I X Acyl >< Alul 

TCTGAGGAGG TTGTTCTCAA GAACGGTGAA CTCGAAGCAC TCGAGACGCC CGTTGATAGC TTCACAAATG 
2530 2540 2550 2560 2570 2580 2590 



FIGURE 13. 7 
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>< Pall >< Nlalll 
>< Haelll >< Mnll 
>< BsuRI >< Ddel >< Tru9I 
>< Alul >< BsrI >< BshI >< Bfrl >< Msel 

GAGCTATCGT TGGCACACCA GTCTGTGTAA ATGGCCTCAT GCTCTTAGAG AT TAAGGACA AAGAACAATA 



2600 



2610 



2620 



2630 



2640 



2650 



2660 



>< ScrFI 
>< Mval 
>< EcoRII 
>< MstI >< Ecll36I 

>< HinPlI >< DsaV 
>< Hin6I >< BstOI 

>< Hhal >< BstNI 
>< Fspl >< BsmAI 

>< Fdill >< BsiLI 

>< Cfol >< Apyl 
>< Avill >< Alw26I >< BsrI 
CTGCGCATTG TCTCCTGGTT TACTGGCTAC AAACAATGTC 
2670 2680 2690 2700 



>< Vnel 

Tru9I >< 
>< Snol 

>< Sdul 
>< NspII 
Msel >< 
>< HgiAI 
Bspl286I XBslI >< 
BsiYI >< 
>< Bmyl 
>< ApaLI 
>< Tru9I >< Alw4 4I 
>< Msel >< Alw21I 

TTTCGCTTAA AAGGGGGTGC ACCAATTAAA 
2710 2720 2730 



>< Tfil 

>< Maelll >< MboII > < Maelll >< Hinfl Alul >< 

GGTGTAACCT TTGGAGAAGA TACTGTTTGG GAAGTTCAAG GTTACAAGAA TGTGAGAATC ACATTTGAGC 



2740 



2750 



2760 



2770 



2780 



2790 



2800 



>< Maell 

>< Hindll 
>< Hindi 

X Afllll 



>< 
>< 



Tru9I 
Msel 



>< Sdul 

>< NspII >< 

>< HgiAI 

>< Bspl286I 

>< Bmyl >< 

>< Alw21I 

>< AccI 



>< Rsal 
X NlalV 
Maelll >< 

X Mspix Kpnl 

>< Hpall 

x HapII 

> < Eco64I 
x Csp6I 

Tfil >< BscBI 

> < BanI 

> < Asp718 
Hinfl >< Afal 

> < AccBlI 

> < Acc65I 



TTGATGAACG TGTTGACAAA GTGCTTAATG AAAAGTGCTC TGTCTACACT GTTGAATCCG GTACCGAAGT 
2810 2820 2830 2840 2850 2860 2870 

x Sau3AI 
X Ndell 
X Mbol 
>< DpnII 

x Nspl > < Dpnl 

X NspHI X MboII X BspAI 

x Nlalll > < BsrI > < Bspl43I 

X Ddel >< Mnll >< AlwNI >< Bbsl X AlwNI 

TACTGAGTTT GCATGTGTTG TAGCAGAGGC TGTTGTGAAG ACTTTACAAC CAGTTTCTGA TCTCCTTACC 
2880 2890 2900 2910 2920 2930 2940 



>< Sau3AI 
X Ndell 
X Mbol 
>< DpnII 

X Dpnl 
X BspAI 



FIGURE 13.8 
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s<r NlaTTTX BSD143I >< Alul >< SfaNI 

AACATGGGTA TTGATCTTGA TGAGTGGAGT GTAGCTACAT TCTACTTATT TGATGATGCT GGTGAAGAAA 
29 50 2960 2970 2980 2990 3000 3010 

>< SfaNI 
>< Mnll 

x HnhT >< MaellX Bpml >< Mnll >< Eamll04I >< Mboll 

ACTTTTCATC ACGTATGTAT TGTTCCTTTT ACCCTCCAGA TGAGGAAGAA GAGGACGATG CAGAGTGTGA 
3020 3030 3040 3050 3060 3070 30BU 

> < Rsal 
>< Rsal 
>< Nlalll 

>< Mnll >< FokI 

>< Csp6I Eco31I >< 

>< Csp6I >< MamI BsmAI >< 

X M boII > < Afal >< BsiBI Bsal >< 

>< Mhon >< Afal >< BsaBIAlw26I >< 

GGAAGAAGAA ATTGATGAAA CCTGTGAACA TGAGTACGGT ACAGAGGATG ATTATCAAGG TCTCCCTCTG 
3090 3100 3110 3120 3130 3140 

>< NlalVX PvuIIX XmnI 
X Eco64I X Psp5I >< TthHB8I 

X Mnll >< Ddel >< Taql >< Mnll >< MboII V 

>< BscBIX NspBII >< Mnll >< Ksp632I >< MboII >< MboII;, 

X BanI >< Mnll X Earl >< ^ B f rI 

x AccBlI >< Alul >< Asp700I >< Eamll04I X MboIIX Bbsl 
GAATTTGGTG CCTCAGCTGA AACAGTTCGA GTTGAGGAAG AAGAAGAGGA AGACTGGCTG GAT GAT ACT A 

3160 3170 3180 3190 3200 3210 3220 

X Tru9I 

>< Msel >< Eco57I 

nrt t ><c BsrI>< MboII BsrI X 

CTGAGCAATC AGAGATTGAG CCAGAACCAG AACCTACACC TGAAGAACCA GTTAATCAGT TTACTGGTTA 
3230 3240 3250 3260 3270 3280 3290 

>K Ms li >< Tru9I >< Hindlix Tru9I >< Dralll 

>< DraI X Msel X HincIIX Msel X BspWI 

TTTAAAACTT ACTGACAATG TTGCCATTAA ATGTGTTGAC ATCGT T AAGG AGGCACAAAG TGCTAATCCT 

3300 3310 3320 3330 3340 3350 3360 

X Vnel 
X Snol 

> < Sdul 

> < NspII 

> < HgiAI 

> < Bspl286I 

> < Bmyl 
X ApaLI 

X HphI > < Nlalll >< A1W44I 

X Bbvl X Fnu4HI X BspMI > < Alw21I 

ATGGTGATTG TAAATGCTGC TAACATACAC CTGAAACATG GTGGTGGTGT AGCAGGTGCA CT C AAC AAGG 
3370 3380 3390 3400 3410 3420 3430 

X Sau96I 
X Pall 

>< NspIV 
x Haelll 

x NlalV >< cfr131 

FIGURE 13.9 
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>< Eco64I 

>< BscBI 
>< Banl 
>< AccBllX Nlalll 



>< BsuRI 

> < Tru9l >< BsiZI 

> < Msel >< BshI >< Mnll 
>< Alul >< Asul >< Mnll 



CAACCAATGG TGCCATGCAA AAGGAGAGTG AT GAT T AC AT TAAGCTAAAT GGCCCTCTTA CAGTAGGAGG 
344 0 3450 3460 3470 3480 3490 3500 

>< SinI 
>< Sau96I 
>< NspIV 
>< NspHlX NspHII 
X Eco4 7I 
X Cfrl3l 
>< Nlalll X BspMI 
X BsiZI 
X Bmel8I 
>< Avail Mnll x 
> < Ddel >< NsplX Asul Fokl X 

GTCTTGTTTG CTTTCTGGAC ATAATCTTGC TAAGAAGTGT CTGCATGTTG TTGGACCTAA CCTAAATGCA 
3510 3520 3530 3540 3550 3560 3570 

> < Tru9I 
>< Hphl> < Msel 
X Esp4I 
X Alul > < Ndel 

X Aflllx Fnu4HI >< Bbvl 
GGTGAGGACA TCCAGCTTCT TAAGGCAGCA TATGAAAATT TCAATTCACA GGACATCTTA CTTGCACCAT 
3580 3 590 3600 3610 3620 3630 3640 



Rsal >< 
Csp6I X 

X Eco57I >< Bcgl Afal X 

TGTTGTCAGC AGGCATATTT GGTGCTAAAC CACTTCAGTC TTTACAAGTG TGCGTGCAGA CGGTTCGTAC 
3650 3660 3670 3680 3690 3700 3710 

>< Bsgl >< BspMI 

>< Bcgl/a >< Aiui >< NlaIII 

ACAGGTTTAT ATTGCAGTCA ATGACAAAGC TCTTTATGAG CAGGTTGTCA TGGATTATCT TGATAACCTG 
3720 3730 3740 3750 3760 3770 3780 

0 X Mnll 

X Rmal > < Mnll >< NlalV >< Tfil >< MboII 

x Mael >< Eco57I >< BscBI >< Hinfl >< Ddel 

AAGCCTAGAG TGGAAGCACC TAAACAAGAG GAGCCACCAA ACACAGAAGA TTCCAAAACT GAGGAGAAAT 
3790 3 *°0 3810 3820 3830 3840 3850 



X Tru9I 

x 

X 

x Msel 

X 
X 

>< Rsal >< 
X Csp6I >< TthHB8I >< 

X Afal >< TaqI >< 

CTGTCGTACA GAAGCCTGTC GATGTGAAGC CAAAAATTAA GGCCTGCATT GATGAGGTTA ^CCACAACACT 
386 ° 3870 3880 3890 3900 3910 3920 



StuI 
Pall 

>< Mnll 
Haelll 
Ecol47I 
BsuRI 
BshI 
AatI 



x Maelll 
x Eco0651 
x Eco91I 

BstXI 
X BstPI 
>< BstEII 



X 



X Ddel 



X EcoRV 



Tfil >< 

NlaIII >< 

Hinfl >< 
x Hindlll 



FIGURE 13.10 
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X BsrI >< MboII >< Maelll >< Eco32I >< Alul 

GGAAGAAACT AAGTTTCTTA CCAATAAGTT ACTCTTGTTT GCTGATATCA ATGGTAAGCT TTACCATGAT 
3930 3940 3950 3960 3970 3980 3990 

>< Nspl 
>< NspHI 

X Nlalll >< SfaNI 

X Mnll > < EcoNI „ w 

>< D del >< MboII x BslI > < Nlalll 

X Ddel >< Bfrl >< HphI >< BsiYI >< Fokl 

TCTCAGAACA TGCTTAGAGG TGAAGATATG TCTTTCCTTG AGAAGGATGC ACCTTACATG GTAGGTGATG 
4000 4010 4020 4030 4040 4050 4060 

>< Spel 
>< Rmal 

>< Mael X EcoRVX HphI >< SfaNI 

X HphI >< Eco32I >< Mnll >< Ddel 

TTATCACTAG TGGTGATATC ACTTGTGTTG TAATACCCTC CAAAAAGGCT GGTGGCACTA CTGAGATGCT 
4070 4080 4090 4100 4110 4120 4130 

X ScrFI 
>< Rsal 

X Mval 
X EcoRII 

X EC1136I 
>< DsaV 
X Csp6I X EcoNI 
X BstOI 
X BstNI 
X BsiLI 
X BsaJI 
X BsaAI >< BslI 
X MboII >< MaellX Apyl ; 

X Alul X BsrI >< Afal >< BsiYI 

CTCAAGAGCT TTGAAGAAAG TGCCAGTTGA TGAGTATATA ACCACGTACC CTGGACAAGG ATGTGCTGGT 
4140 4150 4160 4170 4180 4190 4200 

X Tru9I 
X Msel 

>< Ddel >< Esp4I >< Rsal 

>< Mnll >< BspWI >< Csp6I 

X Fokl X Alul X Aflll X Eco57I X Afal 
TATACACTTG AGGAAGCTAA GACTGCTCTT AAGAAATGCA AATCTGCATT TTATGTACTA CCTTCAGAAG 

4210 4220 4230 4240 4250 4260 4270 

x ScrFI 
X Mval 
X EcoRII 

X Xmnl X Ecll36I Nlalll >< 

> < Ksp632I X Rmal x DsaV Ksp632I >< 

> < Earl > < Tfiix MboII X BstOI >< Earl 

> < Eamll04I x Mael X BstNI Eamll04I X 

> < Ddel > < Hinfl >< BsiLI BsmAI >< 
>< BspWI >< Asp700I X Apyl Alw26I >< 

CACCTAATGC TAAGGAAGAG ATTCTAGGAA CTGTATCCTG GAATTTGAGA GAAATGCTTG CTCATGCTGA 
4280 4290 4300 4310 4320 4330 4340 

X Vspl X Zsp2I 

X Tru9I X PpulOI 
X Msel X Nsil 

X MboII >< Nlalll >< Fokl 

X Eco57I >< Mphll03I >< Fokl 

FIGURE13.il 
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>< Asnl >< EcoT22I >< BspWI 

>< Asel >< Avalll >< Bgll >< Maell 

AGAGACAAGA AAATTAATGC CTATATGCAT GGATGTTAGA GCCATAATGG CAACCATCCA ACGTAAGTAT 
4350 4360 4370 4380 4390 4400 4410 



>< Tru9I 
>< Msel 

>< Mnll 



>< SfaNI 

> < Hindll >< Tfil 

> < HincIIX MboII 
>< DrdI >< Hinfl 



>< Spel 
>< Rmal 
>< Ma el 



AAAGGAATTA AAAT TCAAGA GGGCATCGTT GACTATGGTG TCCGATTCTT CTTTTATACT AGTAAAGAGC 
4420 4430 4440 4450 4460 4470 4480 



>< Maelll 

><c sfcI >< Fnu4HI >< Muni 

>< Alul >< Alul >< Acil Maelll >< 

CTGTAGCTTC TATTATTACG AAGCT GAACT CTCTAAATGA GCCGCTTGTC ACAATGCCAA TTGGTTATGT 



4490 



4500 



4510 



4520 



4530 



4540 



4550 



>< Thai 
>< Mvnl 

>< MboII 
>< HinPlI 
>< HinPlI 

>< Hin6I 
X Hin6I 

>< Hhal 
x Hhal 
X Fnu4HI 

X Cfol 
>< Cfol 
>< BstUI 
X BssHIIX BspWI X Tru9I 
>< BspSOI X Msel 

x AccII >< Alul HphI X 

GACACATGGT TTTAATCTTG AAGAGGCTGC GCGCTGTATG CGTTCTCTTA AAGCTCCTGC CGTAGTGTCA 
4560 4570 4580 4590 4600 4610 4620 

>< Maelll 

>< SfaNI >< AlwNI >< Mni! >< M nlIX Ddel 

GTATCATCAC CAGATGCTGT TACTACATAT AATG GATACC TCACTTCGTC ATCAAAGACA TCTGAGGAGC 



X Tru9I 
>< Nlalll 

X Msel 

>< Mnll 
X Ksp632I 
>< Earl 
X Eamll04I 
>< Bbvl 



4 630 



4640 



4650 



4660 



>< Sdul 
X NspII 
X HgiAI 
X Bspl286I 
X Bmyl 
X Alw21I 



4670 

>< SinI 
X Sau96I 
>< NspIV 

X NspHII 
X Eco4 7I 
Cfrl3I 
BsiZI 
Bmel8I 
Avail 
Asul 



4680 



4690 



X 
X 
X 
X 
X 



ACTTTGTAGA AACAGTTTCT TTGGCTGGCT CTTACAGAGA TTGGTCCTAT 



4700 



4710 



4720 



4730 



4740 



>< Rsal 
X Csp6I 
X Afal 
TCAGGACAGC GTACAGAGTT 
4750 4760 



X Tru9I 
X Msel 
X Esp4I 



X Rsal 
X HphI 
X Csp6I 

FIGURE 13.12 



>< Van91I 
>< PflMI 
X BslI 
>< BsiYI 



> < TthHB8I 

> < TaqI 
X Sdul 

X NspII 

X Eco24I 

>< Bspl286I 

X Bmyl Gsul X 
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>< Aflll >< Maelll >< Afal >< AccB7I >< BanllBpml >< 

AGGTGTTGAA TTTCTTAAGC GTGGTGACAA AATTGTGTAC CACACTCTGG AGAGCCCCGT CGAGTTTCAT 
4770 4780 4790 4800 4810 4820 4830 

>< Tru9I 
>< Plel >< EcoNI 
>< Mnll >< BslI 
>< BsmAI >< BsiYI 
>< Mn n >< HphI >< Hinfix Alw26I>< Acil >< Msel 

CTTGACGGTG AGGTTCTTTC ACTTGACAAA CTAAAGAGTC TCTTATCCCT GCGGGAGGTT AAG AC TATAA 
4840 4850 4860 4870 4880 4890 4900 

>< Alul >< Ndel 

AAGTGTTCAC AACTGTGGAC AACACTAATC TCCACACACA GCTTGTGGAT ATGTCTATGA CAT ATG GACA 
4910 4920 4930 4940 4950 4960 4970 

>< SinI 
>< Sau96I 
>< NspIV 

>< NspHII 
>< Eco47I 
>< Cfrl3I 
>< BsiZI 
X Bmel8I 

>< Avail >< Maelll >< Tru9I 

>< Asul >< Fokl >< Msel 

GCAGTTTGGT CCAACATACT TGGATGGTGC TGATGTTACA AAAATTAAAC CTCATGTAAA TCATGAGGGT 
4980 4990 5000 5010 5020 5030 5040 



>< 



Nlalll >< 
Nlalll 
> < Mnll 
>< Mnll 

>< BspHI 



> < TthHB8I 

>< Rsal > < Taql 

> < Rmal >< SnaBI >< Seal \ 

> < Mael >< Maell >< Hindlll >< Rsal 
>< Csp6I >< EcolOSI >< Csp6I 

>< Afal >< BsaAI >< Alul >< Afal 

AAGACTTTCT T TGT ACT ACC TAGTGATGAC ACACTACGTA GTGAAGCTTT CGAGTACTAC CATACTCTTG 
5050 5060 5070 5080 5090 5100 5110 

>< Rsal 

>< Nspl 
>< NspHI 
>< Nlalll 

> < Csp6I >< Tru9I Mnll > 

>< Afllll >< Msel ' BslI >< 

>< Afal >< Dral BsiYI >< 

ATGAGAGTTT TCTTGGTAGG TACATGTCTG CTTTAAACCA CACAAAGAAA TGGAAATTTC CTCAAGTTGG 
5120 5130 5140 5150 5160 5170 5180 



>< Tru9I >< Tru9I >< R^al 

>< Msel >< Msel >< Muni >< Mael Alul > 

TGGTTTAACT TCAATTAAAT GGGCTGATAA CAATTGTTAT TTGTCTAGTG TTTTATTAGC ACTTCAACAG 

5190 5200 5210 5220 5230 5240 5250 

>< SfaNI 
>< Sdul 
>< Nspl I 
>< Eco24I 
>< Bspl286I 
>< Bmyl HphI > 

>< Bbvl Fnu4HI >< 
>< Mnll >< Banll >< BspWI 



FIGURE 13.13 
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CTTGAAGTCA AATTCAATGC ACCAGCACTT CAAGAGGCTT ATTATAGAGC CCGTGCTGGT GATGCTGCTA 
5260 5270 5280 5290 5300 5310 5320 

>< Vnel 
X Snol 

>< Sdul 

>< NspII 

>< HgiAI 

>< Bspl286I 

>< Bmyl 
>< ApaLI 

>< Alw44I MboII >< 

>< Alw21I >< Alul >< HphI 

ACTTTTGTGC ACTCATACTC GCTTACAGTA ATAAAACTGT TGGCGAGCTT GGTGATGTCA GAGAAACTAT 
5330 5340 5350 5360 5370 5380 5390 

> < SphI 

> < Pael 

> < Nspl 

> < NspHI >< Tfil >< Tru9I 
>< Sfcl > < Nlalllx Hinfl >< Msel 

GACCCATCTT CTACAGCATG CTAATTTGGA ATCTGCAAAG CGAGTTCTTA ATGTGGTGTG TAAACATTGT 
5400 5410 5420 5430 5440 5450 5460 



>< Rsal 

>< Tru9I > < Csp6I Esp4I > 

>< Msel >< Alul >< Afal Aflll > 

GGTCAGAAAA CTACTACCTT AACGGGTGTA GAAGCTGTGA TGTATATGGG TACTCTATCT TATGATAATC 
5470 5480 5490 5500 5510 5520 5530 



>< Rsal 

>< MboII 
>< RmalHinfl >< 
>< Csp6I 

>< Tru9I >< SfaNI >< Mael >< Bbsl 

x Msel >< Nlalll >< Afal 

TTAAGACAGG TGTTTCCATT CCATGTGTGT GTGGTCGTGA TGCTACACAA TATCTAGTAC AACAAGAGTC 
5540 5550 5560 5570 5580 5590 5600 



>< Rsal 

>< Plel > < Ddel X Csp6I 

X Bsgl >< BspWI X BspMI x Afal 

TTCTTTTGTT ATGATGTCTG CACCACCTGC T GAG TAT AAA TTACAGCAAG GTACATTCTT ATGTGCGAAT 
5610 5620 5630 5640 5650 5660 5670 



X Eco31I 

>< Rsal >< Ddel 

> < Mael I I >< BsmAI 

x Csp6l >< Bsal Mnll X 

X Afal X BsrI >< Alw26I HphI > 

GAGTACACTG GTAACTATCA GTGTGGTCAT TACACTCATA TAACTGCTAA GGAGACCCTC TATCGTATTG 

5680 5690 5700 5710 5720 5730 5740 



X SstI 
X Sdul 
X SacI 
x NspII 
>< HgiAI 
>< Eco24I 
>< Ecll36II 
X Bspl286l 
X Bmyl 



X SinI 
x Sau96l 
X NspIV 
>< NspHII 
> < Rsal x Maelll 

x Eco47I 
X Cfrl3I 
x BsiZI 
X Bmel8I 



FIGURE 13. 14 
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>< Banll >< Avail 

X Alw21I X Csp6I>< Asul 

>< Alul > < Afal >< BsrIX AlwNI 

ACGGAGCTCA CCTTACAAAG ATGTCAGAGT ACAAAGGACC AGTGACTGAT GTTTTCTACA AGGAAACATC 
5750 5760 5770 5780 5790 5800 5810 

>< TthHB8I 

>< TaqI >< Maelll 

TTACACTACA ACCATCAAGC CTGTGTCGTA TAAACTCGAT GGAGTTACTT ACACAGAGAT TGAACCAAAA 
5820 5830 5840 5850 5860 5870 5880 

>< Rsal 
>< Csp6I 
>< Sfcl >< Bbvl 
>< Fokl >< Fnu4HI >< Afal 

TTGGATGGGT ATTATAAAAA GGATAATGCT TAC TAT AC AG AGCAGCCTAT AGACCTTGTA CCAACTCAAC 
5890 5900 5910 5920 5930 5940 5950 

Tru9I >< 
Swal >< 
Msel >< 

> < Nspl MamI >< 

> < NspHI Dral X 

> < Nlalll BsiBI >< 
>< Afllll BsaBI >< 

CATTACCAAA TGCGAGTTTT GATAATTTCA AACTCACATG TTCTAACACA AAATTTGCTG ATGATTTAAA 
5960 5970 5980 5990 6000 6010 6020 

i 

>< MboII : . 
>< Alul X Alulx Maelll 

TCAAATGACA GGC TTCACAA AGCCAGCTTC ACGAGAGCTA TCTGTCACAT TCTTCCCAGA CTTGAATGGC 
6030 6040 6050 6060 6070 6080 6090 

X sfcl 

GATGTAGTGG CTATTGACTA TAGACACTAT TCAGCGAGTT TCAAGAAAGG TGCTAAAT T A CTGCATAAGC 
6100 6110 6120 6130 6140 6150 6160 



X Muni 

X BstXl 



X Tru9I 

X ScrFI 
>< Mval 

X Msel 

X EcoRII 

X Ecll36I 
X DsaV 

>< BstOI 
X BstNI 
X BsiLI 
X Apyl 



x Maell 



Maell x 
x Dralll 
>< BstXI 



CAATTGTTTG GCACATTAAC CAGGCTACAA CCAAGACAAC GTTCAAACCA AACACTTGGT GTTTACGTTG 



6170 



6180 



6190 



6200 



6210 



6220 



6230 



> < Rsal 

x Csp6I MboII >< 

> < AfalX BsrI >< Bbsl 
TCTTTGGAGT ACAAAGCCAG TAGATACTTC AAATTCATTT GAAGTTCTGG CAGTAGAAGA CACACAAGGA 

6240 6250 6260 6270 6280 6290 6300 



X Hindll X MboII 

>< Hindi >< Mnll X Eco57I 

ATGGACAATC TTGCTTGTGA AAGTCAACAA CCCACCTCTG AAGAAGTAGT GGAAAATCCT ACCATACAGA 
6310 6320 6330 6340 6350 6360 6370 



FIGURE 13.15 
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>< Maelll >< Tru9I 

>< Maell >< Msel 

AGGAAGTCAT AGAGTGTGAC GTGAAAACTA CCGAAGTTGT AGGCAATGTC ATACTTAAAC CAT CAGATGA 
6380 6390 6400 6410 6420 6430 6440 

>< XhoII 
>< Sau3AI 
>< Nlalll 
>< Ndell 
>< Mfll 
X Mbol 
>< DpnII 

>< Dpnl 
>< BstYI 

>< Tru9I >< BspAI 

>< Msel >< BspHI X Bspl43I>< Fnu4HI 

> < Maelll >< Mnll >< Bbvl >< Alwl 

AGGTGTTAAA GTAACACAAG AGTTAGGTCA TGAGGATCTT ATGGCTGCTT ATGTGGAAAA CACAAGCATT 
6450 6460 6470 6480 6490 6500 6510 

>< Saul 
>< Rmal 

>< Mstll 
>< Mael 

>< Eco81I 

>< Ddel 

X Cvnl 

X Bsu36I 

>< Bse21I 

>< Bfrl> < Tru9I 

>< Tru9I >< Axyl> < Mselx Muni x Nlalll 

>< Msel >< Alul X AocI >< Dral x Bbvl Fnu4HI X 

ACCATTAAGA AACCTAATGA GCTTTCACTA GCCTTAGGTT TAAAAACAAT TGCCACTCAT GGTATTGCTG 
6520 6530 6540 6550 6560 6570 6580 

x Vspl X Styl 

x Tru9I x EcoT14I > < D del 

x Msel X Ecol30I >< BslI 

X Asnl x BssTlI >< BsiYI 

x Asel x BsaJI > < B frl x Fnu4HI 

CAATTAATAG TGTTCCTTGG AGTAAAATTT TGGCTTATGT CAAACCATTC TTAGGACAAG CAGCAATTAC 

6590 6600 6610 6620 6630 6640 6650 

X HinPlI 

>< Hin6I >< Tru9I 

>< Hhal >< Maellx Msel 

X Ddel x Drain 

X Bbvl >< cfol >< Afllll 
AACATCAAAT TGCGCTAAGA GATTAGCACA ACGTGTGTTT AACAATTATA TGCCTTATGT GTTTACATTA 

6660 6670 6680 6690 6700 6710 6720 

x Rsal > < Rsaix Xbal 

X Csp6I X Csp6I >< Rmal 

X Muni x Afal > < Afal X Mael >< Alul 

TTGTTCCAAT TGTGTACTTT TACTAAAAGT ACCAATTCTA GAATTAGAGC TTCACTACCT ACAACTATTG 
6730 6740 6750 6760 6770 6780 6790 

>< Vspl 
X Tru9I 
>< Nael 
>< Mspl 

>< Msel 

FIGURE 13. 16 
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>< Hpall 
>< HapII 
>< CfrlOl >< Fokl 
>< Tru9I >< Asnl 

>< Msel >< SfaNI >< Aseix HphlX Maelll 

CTAAAAATAG TGTTAAGAGT GTTGCTAAAT TATGTTTGGA TGCCGGCATT AATTATGTGA AGTCACCCAA 
6800 6810 6820 6830 6840 6850 6860 

>< Tru9I >< Ddel Maelll > 

>< Msel >< Bfrl >< Bbvl 

ATTTTCTAAA TTGTTCACAA TCGCTATGTG GCTATTGTTG TTAAGTATTT GCTTAGGTTC TCTAATCTGT 

6870 6880 6890 6900 6910 6920 6930 



>< Fnu4HI 



> < Rsal 
>< Csp6I 

> < Afal 



>< Sdul 
>< NspII 
>< HgiAI 
>< Bspl286I 
>< Bmyl 
>< Alw21I 



GTAACTGCTG CTTTTGGTGT ACTCTTATCT AATTTTGGTG CTCCTTCTTA TTGTAATGGC GTTAGAGAAT 



6940 



6950 



6960 



6970 



6980 



6990 



7000 



Tru9I >< 
Msel >< 

>< Tru9I > < Maelll >< Fnu4HI 

>< Msel >< Maell Bbvl > 

TGTATCTTAA TTCGTCTAAC GTTACTACTA TGGATTTCTG TGAAGGTTCT TTTCCTTGCA GCATTTGTTT 
7010 7020 7030 7040 7050 7060 7070 

> < Tfil Rsal X 

>< MamI >< HphI 

> < Hinfl Csp6I >< 

>< BsiBI X Xmnix Maelll Alul >. 

>< Pleix Hinfl >< BsaBI X Alul x Asp700I Afal >< 

AAGTGGATTA GACTCCCTTG ATTCTTATCC AGCTCTTGAA ACCATTCAGG TGACGATTTC ATCGTACAAG 
7080 7090 7100 7110 7120 7130 7140 



X Pall 

X NspBII 
X Haelll 
X Gdill 

x Fnu4HI 
>< Eael 

>< Ddel 
>< BsuRI 

X Rmal X BshI x BslI 

>< Mael >< Acilx BsiYI 

CTAGACTTGA CAATTTTAGG TCTGGCCGCT GAGTGGGTTT. TGGCATATAT GTTGTTCACA AAATTCTTTT 
7150 7160 7170 7180 7190 7200 7210 



x BspMI >< Rmal 

>< Alul >< Mael 

ATTTATTAGG TCTTTCAGCT ATAATGCAGG TGTTCTTTGG CTATTTTGCT AGTCATTTCA TCAGCAATTC 
7220 7230 7240 7250 7260 7270 7280 



Rsal X 
X MboII 
>< NlalV MamI X 

>< Eco64I Csp6I X 

> < Rsal X BscBI BsiBI X 

>< Csp6I X BanI BsaBI >< 

> < Nlalll > < Afaix AccBlI Afal >< 

FIGURE 13.17 
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TTGGCTCATG TGGTTTATCA TTAGTATTGT ACAAATGGCA CCCGTTTCTG CAATGGTTAG GATGTACATC 
7290 7300 7310 7320 7330 7340 7350 

TthHB8I >< 

>< TaqI 
Mill I >< 

>< Nctel Ksp632I X 

>< Ksp632I >< Fo]cI 

>< Earl >< MboII Earl >< 

>< Fokl >< Eamll04I>< Aluix MboII >< Nlalll Eamll04I >< 

TTCTTTGCTT CTTTCTACTA CATATGGAAG AGCTATGTTC ATATCATGGA TGGTTGCACC TCTTCGACTT 
7360 7370 7380 7390 7400 7410 7420 

XhoII >< 
Sau3AI >< 
Nlalll >< 

Ndell X 
Mfll >< 
Mbol >< 

>< Thai > < Ksp632I 

>< Mvnl > < Earl 

>< HinPlI >< Mlul > < Eamll041 

>< Hin6I >< BstUI DpnII >< 

>< Hhal >< Bsp50I >< Rsal BstYI X 

X Nlalll x Cfol x AflHI x Csp6I X Tru9I BspAI x 

X BspWI x BspWI >< AccII >< Afal X Msel Bglll >< 

GCATGATGTG CTATAAGCGC AATCGTGCCA CACGCGTTGA GTGTACAACT ATTGTTAATG G C ATGAAG AG 
7430 7440 7450 7460 7470 7480 7490 

>< Pall 
X Haelll 

X Dsal >< Muni 

X MboII >< BsuRI Maelll >< 

><: °P nI >< BshI >< Muni BsmAI >< 

>< Bspl43I x Mnll >< BsaJI x Plelx Hinfl Alw26I >< 

ATCTTTCTAT GTCTATGCAA ATGGAGGCCG TGGCTTCTGC AAGACTCACA ATTGGAATTG TCTCAATTGT 
7500 7510 7520 7530 7540 7550 7560 

>< Rsal Tru9I X 

> < Csp6l Msel >< 

x BsrI >< Gsul >< MaelllDral X 

>< Afal >< Bpml > < BsrI 

GACACATTTT GCACTGGTAG T AC AT T CAT T AGTGATGAAG TTGCTCGTGA TTTGTCACTC CAGTTTAAAA 

7570 7580 7590 7600 7610 7620 7630 

X Thai 
X Mvnl 
> < HphI 
HinPlI X 

>< HinPlI 

X Hin6I 
>< Hin6I 
Hhal X 

X Hhal 
Cfol >< 

X Cfol 
X BstUI 
X BssHII 
BspSOI X 

> < BsrI >< AccII 

GACCAATCAA CCCTACTGAC CAGTCATCGT ATATTGTTGA TAGTGTTGCT GTGAAAAATG GCGCGCTTCA 
7640 7650 7660 7670 7680 7690 7700 

FIGURE 13. 18 
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>< Fokl 

>< BsmAI 

>< Mnll >< Alw26I >< Acil 

CCTCTACTTT GACAAGGCTG GTCAAAAGAC CT AT GAG AG A CATCCGCTCT CCCATTTTGT CAATTTAGAC 
7710 7720 7730 7740 7750 7760 7770 

>< Vspl 
>< Tru9I 
>< Msel 
>< Asnl 

> < AluT >< Asel >< Bcgl/a 

AATTTGAGAG CTAACAACAC TAAAGGTTCA CTGCCTATTA ATGTCATAGT TTTTGATGGC AAGTCCAAAT 
7780 7790 7800 7810 7820 7830 7840 



>< Sfcl >< PvuII 
>< Rsal >< PspSI 

>< Plel >< Csp6I >< NspBII 

>< Hinf I >< Ddel >< Bcgl >< Afal >< Alul 

GCGACGAGTC TGCTTCTAAG TCTGCTTCTG TGTACTACAG TCAGCTGATG TGCCAACCTA TTCTGTTGCT 



7850 



7860 



7870 



7880 



7890 



7900 



7910 



TthHB8I >< 
TaqI X 
Sail >< 
Rtrl >< 

>< Seal Hindll,; > 

>< Rsal >< Tru9I HincIT > 

>< Csp6I >< SfaNI >< Eco57I 

>< Alul >< Maell >< Afal >< Msel AccI x 

TGACCAAGCT CTTGTATCAG ACGTTGGAGA TAGTACTGAA GTTTCCGTTA AGATGTTTGA TGCTTATGTC 
7920 7930 7940 7950 7960 7970 7980 

>< Tru9I 
X Msel 

> < Esp4I X Sfcl 

> < Aflll >< BspWI X Alul 
GACACCTTTT CAGCAACTTT TAGTGTTCCT AT GG AAAAAC TTAAGGCACT TGTTGCTACA GCTCACAGCG 

7990 8000 8010 8020 8030 8040 8050 

>< PvuII 
>< PspSI 
>< NspBII 
>< Fnu4HI 

X Alul >< Bbvl >< Alul 

AGTTAGCAAA GGGTGTAGCT TTAGATGGTG TCCTTTCTAC ATTCGTGTCA GCTGCCCGAC AAGGTGTTGT 
8060 8070 8080 8090 8100 8110 8120 

Maelll >< 

>< Hindll >< BsraAI >< Ddel 

>< Hindi >< FoklX Alw26I >< Bfrl 

TGATACCGAT GTTGACACAA AGGATGTTAT TGAATGTCTC AAACTTTCAC ATCACTCTGA CTTAGAAGTG 
8130 8140 8150 8160 8170 8180 8190 



Sau3AI 



X Nlalll 
>< Hinll 



>< XhoII 
>< 

>< Ndell 
x Mfll 
X Mbol 
Hgal 
DpnII 



>< 

X 



Dpnl x 
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Bspl43I >< 
>< BsaHI >< BstYI 

>< MaelllX HphI >< B biII X BspAI 

>< Maelll >< HphI >< Nlalll >< AcyI >< BglII 

ACAGGTGACA GTTGTAACAA TTTCATGCTC ACCTATAATA AGGTTGAAAA CATGACGCCC AGAGATCTTG 
8200 8210 8220 8230 8240 8250 8260 

>< Nspl 

X NspHI 

>< Nlalll 
X HinPlI 
x Hin6I 
X Hhal 

>< cfo1 >< BspWI >< Maelll 

GCGCATGTAT TGACTGTAAT GCAAGGCATA TCAATGCCCA AG TAGCAAAA AGTCACAATG TTTCACTCAT 
8270 8280 8290 8300 8310 8320 8330 

X Nspl 

X NspHI >< PvuII 

X Nlalll >< PspSI 

>< EamllOSI >< NspBII 
>< Bbvl >< Fnu4HI 

X AflHI >< Alul X Bbvl > < Fnu4HI 

CTGGAATGTA AAAGAC T AC A TGTCTTTATC TGAACAGCTG CG T AAAC AAA TTCGTAGTGC TGCCAAGAAG 

8340 8350 8360 8370 8380 8390 8400 

>< Rmal 

x MboII >< Mael X EamllOSI 

AACAACATAC CTTTTAGACT AACTTGTGCT ACAACTAGAC AGGTTGTCAA TGTCATAACT ACTAAAATCT 
8410 8420 8430 8440 8450 8460 8470 

X Tru9I 

>< Pall 
X Msel 

x Haelll 
>< Seal >< Esp4I 

>< Rsal x Tru9I >< BsuRI 

x Csp6I X Msel >< BshI 

X Afal X Dral X Aflll >< Bbvl 

CACTCAAGGG TGGTAAGATT GTTAGTACTT GTTTTAAACT TATGCTTAAG GCCACATTAT TGTGCGTTCT 
8480 6490 8500 8510 8520 8530 8540 

X Rsal 
>< Csp6I 

X BsrI >< Nlalll 

X Fnu4HI >< AfaI >K MaeIII 

TGCTGCATTG GTTTGTTATA TCGTTATGCC AGTACATACA TTGTCAATCC ATGATGGTTA CACAAATGAA 
8550 8560 8570 8580 8590 8600 8610 

>< MaeIII 
> < MaeIII 

X MaeIII >< Fokl 

ATCATTGGTT ACAAAGCCAT TCAGGATGGT GTCACTCGTG ACATCATTTC TACTGATGAT TGTTTTGCAA 
8620 8630 8640 8650 8660 8670 8680 

^ XI T SfCl > 

>< * S P* Fnu4HI X 

X NspHI >< Nlalll BbvI >< 

X Nlalll >< Hgal X BstXI >< B bvl x Alul 

ATAAACATGC TGGTTTTGAC GCATGGTTTA GCCAGCGTGG TGGTTCATAC AAAAATGACA AAAGCTGCCC 

8690 87 °0 8710 8720 8730 8740 8750 



FIGURE 13. 20 
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>< ScrFI 
>< ScrFI >< Rsal 

>< Mval >< Mspl 
>< EcoRII >< Hpall 
X Ecll36I>< Neil 
>< DsaV >< HapII 
>< BstOIX DsaV 
>< BstNI >< Csp6I 

>< Fnu4HI >< BsiLI >< BcnIDdel >< 

>< Alul >< Apyl >< Afal 

TGTAGTAGCT GCTATCATTA CAAGAGAGAT TGGTTTCATA GTGCCTGGCT TACCGGGTAC TGTGCTGAGA 
8760 8770 8780 8790 8800 8810 8820 

> < Maelll >< HphI >< Mnll >< BspWI 

GCAATCAATG GTGACTTCTT GCATTTTCTA CCTCGTGTTT TTAGTGCTGT TGGCAACATT TGCTAGACAC 
8830 8840 8850 8860 8870 8880 8890 

Tru9I > 
SfaNI >< 
X Rsal 
Msel > 

X BspWI >< Fnu4HI X Csp6I 

>< Bbvix Mnll >< Ddel >< Afal 

CTTCCAAACT CATTGAGTAT AGTGATTTTG CTACCTCTGC TTGCGTTCTT GCTGCTGAGT GTACAATTTtf. 
8900 8910 8920 8930 8940 8950 8960 

> < Rmal 
X Mnll 

x Fokl > < Mael 

TAAGGATGCT ATGGGCAAAC CTGTGCCATA TTGTTATGAC ACTAATTTGC TAGAGGGTTC TATTTCTTAT-' 
8970 8980 8990 9000 9010 9020 9030 



ScrFI > 
Mval > 
Mnll X 
EcoRII X 
Ecll36I > 
DsaV x 
BstOI > 

X NlalV BstNI > 

>< Fokl BsiLI > 

>< Alul >< BscBI Apyl > 

AGTGAGCTTC GTCCAGACAC TCGTTATGTG CTTATGGATG GTTCCATCAT ACAGTTTCCT AACACTTACC 



9040 



9050 



9060 



9070 



9080 



9090 



9100 



X SfaNI 
> < Maelll 
X Gsul 
X Bpml 



X Sfcl 
" ><~ScaI 
x Rsal 
X Csp6I 
x Afal 
X Ddel >< AccI 



X Rsal 

x Nspl 
X NspHI 
X Nlalll 
x Nlalll 
x Csp6I 
x Afal 



TGGAGGGTTC TGTTAGAGTA GTAACAACTT TTGATGCTGA GTACTGTAGA CATGGTACAT GCGAAAGGTC 
9110 9120 9130 9140 9150 9160 9170 



X SstI 
X Sdul 
X SacI 



NspII X 
HgiAI X 
Eco2 4I >< 
Bspl28 6I >< 



FIGURE 13.21 
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Ecll36II ><>< Bmyl 
Banll >< 

x Tru9I Alw21I X 

>< BsrI x Msel >< Alul 

AGAAGTAGGT ATTTGCCTAT CTACCAGTGG TAGATGGGTT CTTAATAATG AGCAT T AC AG AGCTCTATCA 
9180 9190 9200 9210 9220 9230 9240 

>< Tfil 

X SfaNI x Hinfl >< Alul X Mnll 

GGAGTTTTCT GTGGTGTTGA TGCGATGAAT CTCATAGCTA ACATCTTTAC TCCTCTTGTG CAACCTGTGG 
9250 9260 9270 9280 9290 9300 9310 

x Maelll 

HphI >< 

>< Eco57I > < BbvI Fnu4HI >< 

GTGCTTTAGA TGTGTCTGCT TCAGTAGTGG CTGGTGGTAT TATTGCCATA TTGGTGACTT GTGCTGCCTA 
9320 9330 9340 9350 9360 9370 9380 

x Rsal 
x Csp6I x Nlalll 
>< Maell x BbvI x Fnu4HI 

X Afllll >< AfalX HphI X BspWI 

CTACTTTATG AAATTCAGAC GTGTTTTTGG TGAGTACAAC CATGTTGTTG CTGCTAATGC ACTTTTGTTT 



9390 



9400 



9410 



9420 



9430 



9440 



9450 



X Rsal 

>< NlalV 
>< Kpnl 
X Eco64I 
X Csp6I 

>< BscBI 
>< Asp718 
>< BanI x Alul 

X Afal 
X AccBlI 

>< Acc65I , _ 

TTGATGTCTT TCACTATACT CTGTCTGGTA CCAGCTTACA GCTTTCTGCC GGGAGTCTAC TCAGTCTTTT 
9460 9470 9480 9490 9500 9510 9520 



> 
> 
X 
X 

X 

> 



< ScrFI 

< Neil 
Mspl 
Hpall 

X Hinfl 
HapII 

< Bcnl > 



>< Alulx DsaV X AccI 



>< Plel 
< Ddel 



X Rsal 
>< Csp6I 

>< Afal x HphI >< HphI Nlalll X 

ACTTGTACTT GACATTCTAT TTCACCAATG ATGTTTCATT CTTGGCTCAC CTTCAATGGT TTGCCATGTT 

9530 9540 9550 9560 9570 9580 9590 

TTCTCCTATT GTGCCTTTTT GGATAACAGC AATCTATGTA TTCTGTATTT CTCTGAAGCA CTGCCATTGG 

9600 9610 9620 9630 9640 9650 9660 



X TthHB8I 
X Rsal 
>< Mnll 
X Mnll 

>< Tru9I >< Csp6I 

>K Tru91 >< Plel x Bcgl/a X TaqI 

X Msel X Ddel >< Nlalll >< BbvI 

>< Eco57I x Bfrl x Hinfl X Msel X Maelll x Afal Fnu4HI X 
TTCTTTAACA AC TAT CT TAG GAAAAGAGTC ATGTTTAATG GAGTTACATT TAGTACCTTC GAGGAGGCTG 
9670 9680 9690 9700 9710 9720 9730 



X Rsal 
>< Csp6I 

>< Bcgl 



X Rsal 
x Csp6I 

FIGURE 13.22 
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>< Afal >< Afal >< Alw26l 

CTTTGTGTAC CTTTTTGCTC AACAAGGAAA TGTACCTAAA ATTGCGTAGC GAGACACTGT TGCCACTTAC 
9740 9750 9760 9770 9780 9790 9800 

>< NlalV 
>< Rsal >< Ddel 

>< Csp6l >< BscBI 

>< Afal >< Bfrl Alul X 

ACAGTATAAC AGGTATCTTG CTCTATATAA CAAGTACAAG TATTTCAGTG GAGCCTTAGA TACTACCAGC 
9810 9820 9830 9840 9850 9860 9870 

>< Fnu4HI 

>< Ddel 

>< Fnu4HI >< Bfrl 

>< Bbvl X Alul >< Bbvl >< Ddel >< AlwNI 

TATCGTGAAG CAGCTTGCTG CCACTTAGCA AAGGCTCTAA ATGACTTTAG CAACTCAGGT GCTGATGTTC 
9880 9890 9900 9910 9920 9930 9940 

>< Sfcl >< Bsral 

>< PstI X BscCI 

TCTACCAACC ACCACAGACA TCAATCACTT CTGCTGTTCT GCAGAGTGGT TTTAGGAAAA TGGCATTCCC 
9950 9960 9970 9980 9990 10000 10010 

>< Rsal 
>< Nlalll 

>< Maelll 

>< Csp6I >< Tru9I 

>< Afal >< Msel 

GTCAGGCAAA GTTGAAGGGT GCATGGTACA AGTAACCTGT GGAACTACAA CTCTTAATGG ATTGTGGTTG 
10020 10030 10040 10050 10060 10070 10080 

XhoII >< 
Sau3AI >< 
>< Tru9I Ndell >< 
>< Nspl Mfll X 

>< NspHI Mbol >< 

>< Nspl X Nlalll DpnII >< 

>< Fokl >< NspHI >< Msel BstYI >< 

X Bstll07I >< Nlalll >< MboII BspAI X 

X AccI ><. Af 1III > < Bbsl Bglll X 

GATGACACAG TATACTGTCC AAGACATGTC ATTTGCACAG CAGAAGACAT GCTTAATCCT AACTATGAAG 
10090 10100 10110 10120 10130 10140 10150 

Pall > 
Msel > 
Haelll > 
Eael X 

- - BsuRI > 

X Dpnl X MboII BshI > 

>< Bspl43I X Alul Ba H > 

ATCTGCTCAT TCGCAAATCC AACCATAGCT TTCTTGTTCA GGCTGGCAAT GTTCAACTTC GTGTTATTGG 
10160 10170 10180 10190 10200 10210 10220 

>< Ddel> < Tru9I 

x Bfrl> < Msel >< Ddel 

CCATTCTATG CAAAATTGTC TGCTTAGGCT TAAAGTTGAT ACTTCTAACC CTAAGACACC CAAG TATAAA 
10230 10240 10250 10260 10270 10280 10290 

>< ScrFI 
>< Mval 
>< EcoRII 

X Ecll36I x SphI 

FIGURE 13.23 
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XDsaV 
>< BstOI 
>< BstNI 
>< BsiLI 
>< Apyl 



>< Pael 
>< Nspl 
>< NspHI 
>< Rmal >< Nlalll 
>< Mael >< HphI 



TTTGTCCGTA TCCAACCTGG TCAAACATTT TCAGTTCTAG CATGC TACAA T GG T TCACCA TCTGGTGTTT 
10300 10310 10320 10330 10340 10350 10360 

>< Sau3AI 
>< Ndell 

>< BsmA1 >< Tru9I>< Dpnl 

>< Alw26I NlaI11 >< m'T >K MSeI ><C Bs * 1431 

ATCAGTGTGC CATGAGACCT AATCATACCA TTAAAGGTTC TTTCCTTAAT GGaSgS G^AGTGTTGG 
10370 10380 10390 10400 10410 10420 10430 

>< Zsp2I 
>< PpulOl 

>< Nsilx SfaNI 

>< Ndel 
>< Mphll03l 
>< EcoT22I 
< Aval II >< Alul 



Rsal X 
Csp6l >< 
Afal >< 



>< Tru9I 

TTTTAACATT GATTATGATT GCGTGTCTTT CTGCTATATG ^S^GG AGCT^cLc Ag'gLJaCAC 
10440 10450 10460 10470 10480 10490 10500 

>< SinI 
>< Sau96I 
>< NspIV 

>< NspHII 
>< Eco47I 
>< Cfrl3I 
>< BsiZI 
>< Bmel8I 
>< Avail 



>< Hindll 
>< Hindi 



>< Sfcl 
Rsal >< 
PstI >< 
X Fnu4HI 
Csp6I X 
>< BspWI 



X Rsal 
>< Csp6I>< Ddel 

10510 10520 10530 10540 10550 10560 10570 

>< Tru9I >< Nlalll 

>< Msel >< Bbvl >< Fnu4HT w-r 

CAGACACAAC CAT AACAT T A AATGTTTTGG CATGGCTGTA TGCTGCTGTT ATCAATGGTG AtJSSgE 
10580 10590 10600 10610 10620 10630 10640 

>< Tru9I 

X Tfil 
X Msel 

><C HphI . >< Tru9I >TcZtt 

>K HlnfI >< Msel >< AfaT 

tcttaataga ttcaccacta ctttgaatga ctttaacctt gtggcaatga agtacaa^a tgaacctttg 

10650 10660 10670 10680 10690 10700 10710 

X SinI 
X Sau96I 
>< PssI 

X PspSII 
>< PpuMI 
X NspIV 

X NspHII 

>< NlalV 



FIGURE 13. 24 
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>< EcoO109I 
>< Eco47I 
>< Drall 
>< Cfrl3I 
>< BsiZI 
>< BscBI 

X Bmel8I >< Ddel 

X Avail >< Bfrl 

>< Asul >< Mnll >< Bbvl 

ACACAAGATC ATGTTGACAT ATTGGGACCT CTTTCTGCTC AAACAGGAAT TGCCGTCTTA GATATGTGTG 
10720 10730 10740 10750 10760 10770 10780 



>< Sau3AI 
X Ndell 
>< Mbol 

X Dpnllx Nlalll 
>< Dpnl >< Hindi! 

>< BspAI >< Hindi 
>< Bspl43I 



>< Fnu4HI 

X Bbvl 
X Bbvl 



X Sfcl 
X Fnu4HI 
X Fnu4HI 
X Alul X PstI 



X Styl 

>< Rsal 

X EcoT14I 
X Ecol30I 
> < Csp6I 

X BssTlI 
>< BsaJI 

>< Afal 



CTGCTTTGAA AGAGCTGCTG CAGAATGGTA TGAATGGTCG TACTATCCTT GGTAGCACTA TTTTAGAAGA 
10790 10800 10810 10820 10830 10840 10850 

X Styl 
X EcoT14I 
X Ecol30I 
>< BssTlI 

>< MboII > < MaelllX BsaJI 

TGAGTTTACA CCATTTGATG TTGTTAGACA ATGCTCTGGT GTTACCTTCC AAGGTAAGT T CAAGAAAATT 
10860 10870 10880 10890 10900 10910 10920 

X SfaNI 

> < Sdul 

> < NspII X Tru9I Rsal X 
>< Tru9I> < Bspl28 6I >< Msel X Tfil Csp6I X 
>< Msel > < Bmyl x Fokl x Hinfl Afal >< 

GTTAAGGGCA CTCATCATTG GATGCTTTTA ACTTTCTTGA CATCACTATT GATTCTTGTT CAAAGTACAC 

10930 10940 10950 10960 10970 10980 10990 

x XmnI >< Muni 

X Bsml Fnu4HI > 

X BscCI BspWI X 

X Maelll x Asp700I X Bbvl Bbvl > 

AGTGGTCACT GTTTTTCTTT GTTTACGAGA ATGCTTTCTT GCCATTTACT CTTGGTATTA TGGCAATTGC 
11000 11010 11020 11030 11040 11050 11060 



X Nspl 

X .NspHI- - X -Tru9I . . 

X Nlalll X Msel X Bsml 

x BspWI >< Fnu4HIX BspWI >< BscCI X Maelll 

TGCATGTGCT ATGCTGCTTG TTAAGCATAA GCACGCATTC TTGTGCTTGT TTCTGTTACC TTCTCTTGCA 



11070 



11080 



11090 



11100 



11110 



11120 



11130 



X BspWI 



>< Tru9I 
X Msel 



>< Accl> 



X SfaNI 
X Rmal 

< Nspl 

< Nlalll 

X Nhel 
X Mael 

< NspHIX Alul 



>< MamI 

>< HphI 
X BspHI 
X BsiBI X Nlalll 

x BsaBI >< Nlalll 



ACAGTTGCTT ACTTTAATAT GGTCTACATG CCTGCTAGCT GGGTGATGCG TAT CAT G AC A TGGCTTGAAT 



11140 11150 11160 11170 

FIGURE 13.25 



11180 



11190 



11200 
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Rmal 
Mael 
>< Alul 



>< Tru9I 
>< Msel 

> < Esp4I 
>< Eco57I 

> < Aflll >< AluI 
TGGCTGACAC TAGCTTGTCT GGTTATAGGC TTAAGGATTG TGTTATGTAT GCTTCAGCTT TAGTTTTGCT 

11210 11220 11230 11240 11250 11260 11270 

>< Rmal 

>< Maell 
>< Mael 

> < Nlalll >< SfaNI >< Fnu4HI 

>< BspHI >< Alul >< Bbvl >< Afllll 

TATTCTCATG ACAGCTCGCA CTGTTTATGA TGATGCTGCT AGACGTGTTT GGACACTGAT GAATGTCATT 
11280 i-i^ ' *. - - — - 



11290 



11300 



11310 



11320 



11330 



11340 



>< Sau3AI 
>< Ndell 
>< Mbol 
>< DpnII 

>< Dpnl 

>< Bspl43I 

*^ mm ™ >K ACCl ><C BspAlX Alul 

ACACTTGTTT ACAAAGTCTA CTATGGTAAT GCTTTAGATC AAGCTATTTC CATGTGGGCC TTAGTTATTT 
11350 11360 11370 11380 11390 11400 11410 



>< Sau96I 
>< Pall 
X NspIV 
>< Nlalll 

>< Haelll 

> < Ddel 
>< Cfrl3I 

X BsuRI 
X BsiZI 
>< BshI 

> < Bfrl 
>< AsuX 



X Rmal 
>< Nlalll 

w iwi t t f >< MaelX Sfcl 

X Maelll >< Mnll >< MaelXI >< AluIX Alul 

CTGTAACCTC TAACTATTCT GGTGTCGTTA CGACTATCAT GTTTTTAGCT AGAGCTATAG TGTTTGTGTG 
11420 11430 11440 11450 11460 11470 11480 

Ddel > 

x BsrI >< Nlalll Bfrl > 

TGTTGAGTAT TACCCATTGT TATTTATTAC TGGCAACACC TTACAGTGTA TCATGCTTGT TTATTGTTTC 
11490 11500 11510 11520 11530 11540 11550 

x Pall 
X Haelll 
X Fnu4HI X BsuRI 
X Bbvl >< Fnu4HI X BspWI 

>< Bbvl X BspWI >< BshI X Eco57I >< Maelll 

TTAGGCTATT GTTGCTGCTG CTACTTTGGC CTTTTCTGTT TACTCAACCG TTACTTCAGG CTTACTCTTG 
11560 11570 11580 11590 11600 11610 11620 



X Eco31I 
>< BsmAI 
x Bsal 



>< ScrFI 
X Mval 

X EcoRII 

X EC1136I 

X DsaV 

X BstOI 
>< BstNI 
>< BsiLI 
> < BsaJI 

X BsaJI 



FIGURE 13. 26 
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>< DrdI >< Alw26I >< Apyl Ddel >< 

GTGTTTATGA CTACTTGGTC TCTACACAAG AATTTAGGTA TATGAACTCC CAGGGGCTTT TGCCTCCTAA 
11630 11640 11650 11660 11670 11680 11690 

>< Tru9I 
>< Msel 

>< SfaNI > < HindIII> < Tru9I 

>< Mnll >< Alul > < Msel > < Mnll > < Nlalll 

GAG TAG TAT T GATGCTTTCA AGCTTAACAT TAAGTTGTTG GGTATTGGAG GTAAACCATG TATCAAGGTT 
11700 11710 11720 11730 11740 11750 11760 

>< Vnel 
>< Snol 

>< Sdul 
>< NspII 
>< HgiAI 
>< Bspl286I 
>< Bmyl >< Rsal 
>< Rsal >< ApaLI * >< MboII 

X Csp6I >< Alw4 4I >< Csp6I Ddel > 

>< Afal X Maell >< Alw21I >< Afal Bfrl > 

GCTACTGTAC AGTCTAAAAT GTCTGACGTA AAGTGCACAT CTGTGGTACT GCTCTCGGTT CTTCAACAAC 
11770 11780 11790 11800 11810 11820 11830 

>< NspII> < Rsal 

>< Drain 
>< SduIX Csp6I 
X MboII X Bspl28 6I 

X Hinfl X Plel >< Bmyl > < Afal X MboII 

TTAGAGTAGA GTCATCTTCT AAATTGTGGG CACAATGTGT ACAACTCCAC AATGATATTC TTCTTGCAAA 
11840 11850 11860 11870 11880 11890 11900 

X TthHB8I 

>< TaqI Sfcl X 

>< Hindlll x MboII >< Nlalll 

X Alul > < Eco57I X BspWI AccI X 

AGACACAACT GAAGCTTTCG AGAAGATGGT TTCTCTTTTG TCTGTTTTGC TAT CCATGC A GGGTGCTGTA 
11910 11920 11930 11940 11950 11960 11970 



>< Vspl 
>< Tru9I 
>< Msel 
x Asnl 

>< Aselx Mnll x Bcgl/a 



X TthHB8I 
>< TaqI x MboII 

X Eco57I X Eco57I 



> 
> 
> 



Ksp632I 
Earl 

Eamll04I 
X Bcgl 



GACATTAATA GGTTGTGCGA GGAAATGCTC GATAACCGTG CTACTCTTCA GGCTATTGCT TCAGAATTTA 



11980 



11990 



12000 



12010 



12020 



12030 



12040 



x Fnu4HI 



>< StuI • 
>< ScrFI 

X Pall 
X Mvalx Haelll 
X EcoRIlx Ecol47I 

X Ecll36I 
X DsaV X BsuRI 
x BstOI 
X BstNI 

X BspWI 
X BsiLI 
X BsaJI >< BshI 



X Ndel x BspWIX Mnll X Bgll 

x Acil >< ApylX AatI 



Tfil >< 
X Sfcl Hinfl x 
> < Alul 



FIGURE 13. 27 
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GTTCTTTACC ATCATATGCC GCTTATGCCA CTGCCCAGGA GGCCTATGAG CAGGCTGTAG CTAATGGTGA 
12050 12060 12070 12080 12090 12100 12110 

>< XmnI >< Tru9I >< sfaNI 

>< HphI >< Msel >< Dd ei 

X Asp700I X Eco57I >< B bvl Fnu4HI >< 

TTCTGAAGTC GTTCTCAAAA AGTTAAAGAA ATCTTTGAAT GTGGCTAAAT CTGAGTTTGA CCGTGATGCT 

12120 12130 12140 12150 12160 12170 12180 

XhoII >< 
Sau3AI >< 
Ndell >< 

Mnll > 
>< Mnll 
>< Mfll 

> < Sau3AI >< MboI 

> < Ndell DpnII >< 

> < MboI Dpnl >< 

> < DpnII DdeI >< 

>< Dpnl BstYI X 

X BspWI >< RsalBspAI X 

> < BspAI >< Csp6IBspl4 3I X 
_ >K NlaI11 >< Bspl43I x AfalBglll X 
GCCATGCAAC GCAAGTTGGA AAAGATGGCA GATCAGGCTA TGACCCAAAT GTACAAACAG GCAAGATCTG 

12190 12200 12210 12220 12230 12240 12250 

>< Spel >< Ksp632I > < Hindlll 

>< Rmal >< DdeI >< sfaNI 

X Maelll x MboII >< Eamll04I X BspWI 

>< Mael x BspWI X Earlx Bfrl >< Alul 

AG GAC AAG AG GGCAAAAGTA ACTAGTGCTA TGCAAACAAT GCTCTTCACT ATGCTTAGGA AGCTTGATAA 

12260 12270 12280 12290 12300 12310 12320 

X Thai 

X Mvnl 
x HinPlI 
>< Hin6I 

x Hhal 

>< Cfol 

x BstOI 

>< Tru9I >< BspSOI 

>< Msel >< AccII sfcI >< 

TGATGCACTT AACAACATTA TCAACAATGC GCGTGATGGT TGTGTTCCAC TCAACATCAT ACCATTGACT 
12330 12340 12350 12360 12370 12380 12390 

>< Rsal 
>< NlalV 
X Eco64I 
X Csp6I 
X BslI 

X BsiYlx Kpnl 
X BscBI 
X BanI 
X Asp718 

>< Nlalll x Afal 

^ ^ >< BStXI >K AccB11 >< Maelll 

>< Fnu4HI X Bbvl >< Acc65I Bsgl X 

ACAGCAGCCA AACTCATGGT TGTTGTCCCT GATTATGGTA CCTACAAGAA CACTTGTGAT GGTAACACCT 

12400 12410 12420 12430 12440 12450 12460 



X Zsp2I 
>< PpulOI 



FIGURE 13. 28 
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>< Nsil 

>< Mphll03I 

>< Ndeix EcoT22I Ddel >< 

>< Avalll >< SfaNI >< SfaNI >< Acil Bfrl >< 

TTACATATGC ATCTGCACTC TGGGAAATCC AGCAAGTTGT TGATGCGGAT AGCAAGATTG TTCAACTTAG 
12470 12480 12490 12500 12510 12520 12530 

>< Pall 

>< Haelll >< Mnll >< DdelDdel >< 
>< Tru9I>< Nlalll >< BsuRI >< Maelll >< BspWI 

>< MselX HphI > < XcmIX BshI X Alul BspWI >< 

TGAAATTAAC ATGGACAATT CACCAAATTT GGCTTGGCCT CTTATTGTTA CAGCTCTAAG AGCCAACTCA 
12540 12550 12560 12570 12580 12590 12600 

Rsal >< 
NlalV >< 
Kpnl >< 
>< Fnu4HI 
Eco64I >< 
Csp6I >< 

>< Tru9I BscBI >< 

>< PvuII Asp718 >< 

>< Psp5I Afal >< 

>< NspBII >< Aciix BanI, 

>< Msel X Hinfl X Plel AccBlI X 

>< Alul > < Sfcl >< Ddeix BsrI >< PshAI Acc65I X 

GCTGTTAAAC TACAGAATAA TGAACTGAGT CCAGTAGCAC TACGACAGAT GTCCTGTGCG GCTGGTACCA 
12610 12620 12630 12640 12650 12660 12670 

i 

X TthHB8I 

X TaqI / 
x sful 
X NspV 
X Mnll 
X Lspl 
>< Csp4 5I 
X BstBI 

>< Rsal >< Bspll9I 

X Csp6I >< BsiCI 

X Alul >< Bpul4I 

x Afal X AsuII 

CACAAACAGC TTGTACTGAT GACAATGCAC TTGCCTACTA TAACAATTCG AAGGGAGGTA GGTTTGTGCT 
12680 12690 12700 12710 12720 12730 12740 

x XhoII 
x Sau3AI 
X Ndell 
>< Mfll. 
X Mbol 
X DpnII 
>< Dpnl 

X BstYI X Tfil X Rsal 

>< BspAI >< Rmal X Csp6I 

X Bspl43I >< Hinfl x Csp6l>< Rsal 

>< Bglll x Mael >< Ddel >< Afaix Afal 

GGCATTACTA TCAGACCACC AAGATCTCAA ATGGGCTAGA TTCCCTAAGA GTGATGGTAC AGGTACAATT 
12750 12760 12770 12780 12790 12800 12810 

X Sau96I 

X PssI 
>< Pall 
>< NspIV 

FIGURE 13.29 
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>< Haelll 
>< EcoO109I 
X Drall 
>< Cfrl3I 

C n «t BshI CS P 6I >< 

>< BscBI > < Maelll >< A T ^ 

TACACAGAAC TGGAACCACC TTGTAGGTTT GTTACAGACA CACCAAAAGG gJcTAAAGTG AAATaSJgJ 
12820 12830 12840 12850 12860 12870 12880 

>< Sfcl 

> < MboII 
Maell >< 
>< Fnu4HI >< Rsal 

X Tru9I >< EC ° 571 ><C Cs P 61 

™- AGGCTTAAAC AAG CT AAA,A GAGGTATGGT TTAGCTGCTA CAG^S 

>< Rsal 
>< Sfcl X Csp6I 
X BspWI >< Afal >< BspMI t ^ 

TCAGGCTGGA AATGCTACAG AAGTACCTGC GA„ GTGCTTTCCT TCTGTGCTTT SgJAGAC 

>< Rmal 

>< Mnll 
X Mael >< HphI 

CC™G CMM S """SS ""^g£ """ESS """SSS """ESS 

>< SinI 
X Sau96l 
>< NspIV 

>< NspHII 
>< Nlalll 
X Eco47I 

X EamllOSI 

x Rsal >< RsaI >< Cfrl3I 

X MboII >< Csp6I BsxZI 

>< Csp6I >< Bsrl >< Bme18 * >< Xcml 

X Afal >< Afal >K AvaI1 Plel X 

GTACACACAC TGGTACAGGA CA„ AS AGAAGC^f A.GGaS AG^GG 

>< SfaNI TfiI 
>< Nlalll >< FokI >< Ma eHI 

TGGTGCTTCA TGTTGTCTGT ATTGTAGATG CCACATTGAC CA„ CTAAAGGATT CTGTGACTTG 

> < Rsal 
x Maell 

>< Csp6I 

> < Afal ><: DdeI 
AAAGGTAAGT ACGTCCAAAT ACCTACCACT TGTGCTAATG AgScaItgGG TTTTACaS/aGAAACACAG 

13270 13280 13290 13300 



FIGURE 13.30 



>< Thai 
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>< SfaNI 
>< Mvnl 
>< BstUI 

>< Rsal >< Bsp50I 

X Csp6I >< Acil 

>< Afal >< Acil >< Sfcl >< Maelll >< AccIISfaNI >< 

TCTGTACCGT CTGCGGAATG TGGAAAGGTT ATGGCTGTAG TTGTGACCAA CTCCGCGAAC CCTTGATGCA 
13310 13320 13330 13340 13350 13360 13370 

>< Zsp2I 

> < SfaNI 
>< Mphll03I>< Tru9I 

>< PpulOIX Maell Fnu4HI >< 

>< Nsil> < Fokl Bsgl >< 

>< EcoT22I >< Msel >< Bbvl 

>< Aciix Avalll X Dral >< Acil >< Fnu4HI Acil >< 
GTCTGCGGAT GCATCAACGT TTTTAAACGG GTTTGCGGTG TAAGTGCAGC CCGTCTTACA CCGTGCGGCA 

13380 13390 13400 13410 13420 13430 13440 

>< Spel 

X Seal 
x Rsal 
>< Rmal 
>< Mael 

> < Csp6I x Sfcl >< BspWI 

X BspWI X Afal >< AccI >< Bcgl/a Bcgl > 

CAGGCACTAG TACTGATGTC GTCTACAGGG CTTTTGATAT TTACAACGAA AAAGTTGCTG GTTTTGCAAA 
13450 13460 13470 13480 13490 13500 13510 

X ScrFI 
X Mval 

x Mnll 
x EcoRII 
X Ecll36I 
X BstOI 
X BstNI 

X BslI 
X DsaV X BsiYI 

X BsiLI >< Plel 

X Apyl > < Fokl X Hinfl 

GTTCCTAAAA ACTAATTGCT GTCGCTTCCA GGAGAAGGAT GAGGAAGGCA ATTTATTAGA CTCTTACTTT 
13520 13530 13540 13550 13560 13570 13580 

x Nlalll 
X Ksp632I 
X Earl 

X Tru9I >< Eamll04I 

x Msel x BsmAI - X Tru9I 

X Mnll >< Alw26I X MboII X Msel 

GTAGTTAAGA GGCATACTAT GTCTAACTAC CAACATGAAG AGACTATTTA TAACTTGGTT AAAGATTGTC 
13590 13600 13610 13620 13630 13640 13650 

X Rsal 
X NlalV 

> < Nlalll 

X Kpnl 
x HphI 

> < Eco64I 
X Csp6I 

X BscBI 

> < BanI 

> < Asp718 

FIGURE 13.31 
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>< NspBII 
>< Acil 



>< Nlalll 



>< Maelll 
> 
> 



>< Afal 

< AccBlI Maell >< 

< Acc65I > < Hgal 



CAGCGGTTGC TGTCCATGAC TTTTTCAAGT TTAGAGTAGA TGGTGACATG GTACCACATA TAT CACGT C A 



13660 



13670 



13680 



13690 



13700 



13710 



13720 



>< Mnll 
>< Maell 

GCGTCTAACT AAATACACAA TGGCTGATTT AGTCTATGCT CTACGTCATT TTGATGAGGG TAATTGTGAT 
13730 13740 13750 13760 13770 13780 13790 

>< Tru9I 

>< Msel >< Maelll >< Muni 

ACATTAAAAG AAATACTCGT CACATACAAT TGCTGTGATG AT GAT T ATT T CAATAAGAAG GATTGGTATG 



13800 



13810 



13820 



13830 



13840 



13850 



13860 



>< Thai 
>< Mvnl 
>< Mlul 
>< BstUI 
>< BspSOl 

>< Tfil X Afllll >< Ddel 

>< Hinfl >< AccII X Bfrl 

ACTTCGTAGA GAATCCTGAC ATCTTACGCG TATATGCTAA' CTTAGGTGAG CGTGTACGCC AATCATTATT 
13870 13880 13890 13900 13910 13920 13930 



>< Rsal 
>< HphI 
X Csp6I Tru9I x 
>< Afal Msel >< 



> < SfaNI 
>< Rsal 
>< Csp6I 
>< Afal 



X 



>< SfaNI 



>< Rsal 
> < Csp6I 
BspWI 

>< Afal 



XhoII 
Sau3AI 
Ndell 
Mfll 
Mbol 
DpnII 
BstYI 
BspAI 



AAAGACTGTA CAATTCTGCG ATGCTATGCG TGATGCAGGC ATTGTAGGCG TACTGACATT AGATAATCAG 



13940 



13950 



13960 



13970 



13980 



13990 



14000 



>< Tru9I 
>< Msel 
>< Dpnl 
X Bspl43I 

X Alwl 



X Rsal 
X Csp6I 
X BsrI 
X Afal 



X Rsal 

> < HphI 
>< Csp6I 

> < Bbvl 
>< Afal 



< ScrFI 

< Mval 

X Fnu4HI 
X EcoRII 

> < Ecll36l 

< BstOI 

< BstNI 
X BslI 
>< BsiYI 

< BsiLI 

< Apyl 



> 
> 



> 
> 



> 
> 



X DsaV X Acil 



GATCTTAATG GGAACTGGTA CGATTTCGGT GATTTCGTAC AAG TAGCACC AGGCTGCGGA GTTCCTATTG 
14010 14020 14030 14040 14050 14060 14070 



>< SfaNI 

x Rmal > < Hinfl 

X MamI >< Mnll >< Fnu4HIPleI X 

>< Tfil X SfaNI x BsiBI x Mael >< Ddel ' 

x Hinfl >< Fokl x BsaBI x Bbvl >< BspWI Ndel X 

TGGATTCATA TTACTCATTG CTGATGCCCA TCCTCACTTT GACTAGGGCA TTGGCTGCTG AGTCCCATAT 

14080 14090 14100 14110 14120 14130 14140 

X Sau3AI 
X Ndel I 



FIGURE 13.3 2 
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>< Mbol 
>< MamI 
>< DpnII 
>< Dpnl 

>< BspWI 
>< BspAI 

>< Bspl43I 
X BsiBI 

>< BsaBI >< Fokl 



>< 
>< 
X 



Xcml 

Tru9I 

Msel 



Tthllll >< 
Mbol I >< 
>< Ksp632I 
>< Eamll04I 

>< BsmAI 
>< Earl Aspl >< 
>< Alw2 6I 



GGATGCTGAT CTCGCAAAAC CACTTATTAA GTGGGATTTG CTGAAATATG ATTTTACGGA AGAGAGACTT 



14150 



14160 



14170 



14180 



14190 



14200 



14210 



>< 
>< 



>< 

>< MboII 
>< 



TthHB8I 
TaqI 

>< Mcrl 

> < Ksp632I 

> < Earl 

> < Eamll04I 
BsmAI > 

>< BsiEI> 
Alw26I 



X 
> 
> 
> 



< SinI 

< Sau96I 

< NspIV 
>< NspHII 
>< NlalV 
Fokl 

< Eco47I 

< Cfrl3I 

< BsiZI 



X SsplX BscBI 

< Tru9I > < Bmel8I 

< Msel > < Avail 
>< Dral > < Asul 



TGTCTCTTCG ACCGTTATTT TAAATATTGG GACCAGACAT 
14220 14230 14240 14250 



>< Tru9I 
>< Muni >< Msel 
ACCATCCCAA TTGTATTAAC TGTTTGGATG 
14260 14270 14280 



SinI >< 
Sau96I >< 
NspIV X 
NspHII > 
Eco47l >< 
Cfrl3I X 
BsiZI X 
Bmel8I >< 

>< Tru9I Avail >< 

>< Fokl >< Msel Asul >< 

ATAGGTGTAT CCTTCATTGT GCAAACTTTA ATGTGTTATT TTCTACTGTG TTTCCACCTA CAAGTTTTGG 
14290 14300 14310 14320 14330 14340 14350 

>< Spel 
>< Rrnal 

>< Mael >< Sspl >< BsrI 

ACCACTAGTA AGAAAAATAT TTGTAGATGG TGTTCCTTTT GTTGTTTCAA CTGGATACCA TTTTCGTGAG 
14360 ■ 14370 14380 14390 14400 14410 14420 

>< ThalX Esp3I 

>< Ddel 
>< BstUI 

>< Bsp50I >< BsmBI 
>< MvnIX BsmAI 
>< HgalX Alul X Alw2 6I 

X Fokl X AccII > < Bbvl 



x Rsal 
x Hinfl x Plel 
> < Csp6I 
x Afal 



TTAGGAGTCG TACATAATCA GGATGTAAAC TTACATAGCT CGCGTCTCAG TTTCAAGGAA CTTTTAGTGT 
14430 14440 14450 14460 14470 14480 14490 

X Zsp2I 
X SphI 
X PpulOI 

x Pael 
x Nspl 

FIGURE 13.33 
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>< Sau3AI 
>< Ndell 
>< Mbol 
>< DpnII 

> < Dpnl 

>< Fnu4HIX BspWT 
X BspAI 

> < Bspl43I> 
>< Alwl X Alul 



>< NspHI 
>< Nsil 

>< Nlalll 
>< Mphll03I 

X Fnu4HI 
>< EcoT22I 
>< BspWI 

< Avalll > < AlwNI 

>< Alul >< Bbvl 



>< Rmal 
>< Mael 



>< Nspl 
NspHI >< 
Nlalll X 

X BspWI 
>< Bsgl 
>< Bbvl 



ATGCTGCTGA TCCAGCTATG CATGCAGCTT CTGGCAATTT ATTGCTAGAT AAACGCACTA CATGCTTTTC 



14500 



14510 



14520 



14530 



14540 



14550 



14560 



>< ScrFI 
>< Neil 
X Mspl 
>< Hpall 

>< Fnu4HI >< HapII 

>< AlwNI >< DsaV >< Tru9I 

>< Alul >< Bcnl >< Msel 

AGTAGCTGCA CTAACAAACA ATGTTGCTTT TCAAACTGTC AAACCCGGTA ATTTTAATAA AGACTTTTAT 
14570 14580 14590 14600 14610 14620 14630 

X Tru9I Ddel >< 

>< Msel >< Mbol I Bbvl >< 

GACTTTGCTG TGTCTAAAGG TTTCTTTAAG GAAGGAAGTT CTGTTGAACT AAAACACTTC TTCTTTGCTC 

14640 14650 14660 14670 14680 14690 14700 

>< Fokl EcoRV >< 

>< Fnu4HI Eco32I >< 

AGGATGGCAA CGCTGCTATC AGTGATTATG ACT AT TAT CG TTATAATCTG CCAACAATGT GTGATATCAG 

14710 14720 14730 14740 14750 14760 14770 

X Vspl 
>< Tru9I 
X Msel 
>< Asnl 

>< Maelll >< Asel 

ACAACTCCTA TTCGTAGTTG AAGTTGTTGA TAAATACTTT GATTGTTACG ATGGTGGCTG TATTAATGCC 
14780 14790 14800 14810 14820 14830 14840 



>< Tru9I 

>< Msel 
>< Hpal 
>< Hindll 
>< Hindi 



>< Pvull 
>< Psp51 
X NspBII 
>< Alul 



> < Xcml 
>< Tru9I 
>< Msel 



Rmal >< 
Mael >< 



AACCAAGTAA TCGTTAACAA TCTGGATAAA TCAGCTGGTT TCCCATTTAA TAAATGGGGT AAGGCTAGAC 



14850 



14860 



14870 



14880 



14890 



14900 



14910 



X SfaNI 

>< Sau3AI 
>< Ndell 
>< Mbol 
X DpnII 
>< Dpnl 

>< Plel >< Bspl43I 

X HinfIX Mnll X BspAI X Alwl 
TTTATTATGA CTCAATGAGT TATGAGGATC AAGATGCACT TTTCGCGTAT ACTAAGCGTA ATGTCATCCC 
14920 14930 14940 14950 14960 14970 14980 



x Thai 
X Mvnl 
X BstUI 

X Bstll071 
X BspWI >< Fokl 
X BspSOI 
X AccIlX Ddel 
X AccI 



X SstI 
>< Sdul 
X SacI 



FIGURE 13.34 
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X Tru9I 
X Tfil 

>< Msel 
>< Hinfl 

> < Esp4I 

> < Aflll >< BspWI 
TACTATAACT CAAATGAATC TTAAGTATGC CATTAGTGCA AAGAATAGAG CTCGCACCGT AGCTGGTGTC 

14990 15000 15010 15020 15030 15040 15050 



>< NspII 
>< HgiAI 
X Eco24I 

< EC1136II 
X Bspl286I 
X Bmyl 
x Banll 
X Alw21I 

< Alul >< 



Alul 



X Seal 
X SfcIX Rsal 
>< BsmAI >< Csp6I 
X Alw2 6I >< Afal 



Rmal X 
> < Mnll 

Mael X 
x Fnu4HI 
x Acil 



TCTATCTGTA GTACTATGAC AAATAGACAG TTTCATCAGA AATTATTGAA GTCAATAGCC GCCACTAGAG 
15060 15070 15080 15090 15100 15110 15120 

X Tru9I 

X Alul ><: MseI 

GAGCTACTGT GGTAATTGGA ACAAGCAAGT TTTACGGTGG CTGGCATAAT ATGTTAAAAA CTGTTTACAG 
15130 15140 15150 15160 15170 15180 15190 

Nspl ><f 
NspHI X ' 
Nlalll X 
X Nlalll 

Ddel ><r 
BspWI X * 
x Maelll Bfrl x 

TGATGTAGAA ACTCCACACC TTATGGGTTG GGATTATCCA AAATGTGACA GAGCCATGCC TAACATGCT.JT 
15200 15210 15220 15230 15240 15250 15260 



> < Pall 

> < Haelll 

> < BsuRI 

> < BshI X Mnll >< Maelll Sfcl X 
AGGATAATGG CCTCTCTTGT TCTTGCTCGC AAACATAACA CTTGCTGTAA CTTATCACAC CGTTTCTACA 



15270 



X Alul 



15280 



15290 



15300 



15310 



15320 



X MstI 
X HinPlI 
X Hin6I 

> < Hhal 
X Fspl 
x Fdill 

> < CfoIX Tru9I 
X Avill >< Msel 



Tru9I X 

ScrFI > 
Mval > 
X Msel 
Fokl >< 
EcoRII >< 
Ecll36I > 
DsaV x 
BstOI > 

X Nlalll BstNI > 

> < Fnu4HI BsiLI > 

X Acil Apyl > 



GGTTAGCTAA CGAGTGTGCG CAAGTAT TAA GTGAGATGGT CATGTGTGGC GGCTCACTAT ATGTTAAACC 
15340 15350 15360 15370 15380 15390 15400 



> < 



SfaNI 

x Mspl 
>< Hpall 
x HapII 



X HphI 
X BspWI 



X Tru9I 
X Msel 



Maelll x 
Alul >< 



FIGURE 13.35 
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AGGTGGAACA TCATCCGGTG ATGCTACAAC TGCTTATGCT AATAGTGTCT TTAACATTTG TCAAGCTGTT 
15410 15420 15430 15440 15450 15460 15470 

>< DrdI 

X BspWI >< Alul > < Acil 

ACAGCCAATG TAAATGCACT TCTTTCAACT GATGGTAATA AGATAGCTGA CAAGTATGTC CGCAATCTAC 
15480 15490 15500 15510 15520 15530 15540 

>< Sau3AI 
>< Ndell 
x Mbol 
> < MamI 

>< Fbal 
>< DpnII 

>< Dpnl 
X BspHI 
>< BspAI 

>< Bspl43I 
>< BsiQI 

>< Sfcl > < BsiBlx Nlalll 

>< BsmAI > < BsaBlx Fokl 

>< Alw26I >< BcllX EcoRI Fokl >< 

AACACAGGCT CTATGAGTGT CTCTATAGAA ATAGGGATGT TGATCATGAA TTCGTGGATG AGTTTTACGC 
15550 15560 15570 15580 15590 15600 15610 

>< Tfil 

x SfaNI 
X Nlalll 

x BspMI >< Hinfl >< Maelll 

TTACCTGCGT AAACATTTCT CCATGATGAT TCTTTCTGAT GATGCCGTTG TGTGCTATAA CAGTAACTAT 
15620 15630 15640 15650 15660 15670 15680 

> < Rmal 
X Nhel X Tru9I 
X Fnu4HI > < Mael >< Tru9I 

x Acil x Alul x Msel >< Msel MnlX >< 

GCGGCTCAAG GTTTAGTAGC TAGCATTAAG AACTTTAAGG CAGTTCTTTA TTATCAAAAT AATGTGTTCA 
15690 15700 15710 15720 15730 15740 15750 

>< SinI 
X Sau96I 

>< PssI 
>< PspSII 
>< PpuMI 
>< NspIV 

>< NspHII 
X Eco0109I 
X Eco47I 
>< Drall 
>< Cfrl3I 
X BsiZI 
>< Ddel >< Brnel8I 

X Nlalll x BsmAI >< Avail 

X Ddel x Alw26I >< Asul X Mnll 

TGTCTGAGGC AAAATGTTGG ACTGAGACTG ACCTTACTAA AGGACCTCAC GAATTTTGCT CACAGCATAC 
15760 15770 15780 15790 15800 15810 15820 

>< XhoII 
>< Sau3AI 
>< Ndell 
>< Mfll 
X Mbol 

FIGURE 13. 36 
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x Rsal . x DpnII 

>< Maell >< Dpnl > < Sspl 

>< Tr ^9I >< Csp6I >< BstYI HinPlI >< 

>< Rmal >< BsaAI >< BspMI Hin6I >< 

>< M ael >< Afllll >< BspAI Hhal x 

>< BspWIX Msel X Afal X AlwIX Bspl43I Cfol >< 

AATGCTAGTT AAACAAGGAG ATGATTACGT GTACCTGCCT TACCCAGATC CATCAAGAAT ATTAGGCGCA 
15830 15840 15850 15860 15870 15880 15890 

>< Rsal >< SfaNI 

>< TthHB8I x Csp6I X Maelll 

>< T a<3l X Afal BsrI X 

GGCTGTTTTG TCGATGATAT TGTCAAAACA GATGGTACAC TTATGATTGA AAGGTTCGTG TCACTGGCTA 
15900 15910 15920 15930 15940 15950 15960 

> < Fokl 
>< BspWI 

TTGATGCTTA CCCACTTACA AAACATCCTA AT CAGGAGTA TGCTGATGTC TTTCACTTGT ATTTACAATA 
15970 15980 15990 16000 16010 16020 16030 

>< Van91I 
X PflMI 
X Nspl 

> < PallX NspHI 

> < Mscix Nlalll 

> < Haelll 

> < BsuRI 
X BsrI 

>< Eael >< BslI >< Nspl 

> < BshlX BsiYI X NspHI 
X Nlalll X Afllll X Afllll 

X Maelll x Alul > < BallX AccB7I X Nlalll 

CATTAGAAAG TTACATGATG AGCTTACTGG CCACATGTTG GACATGTATT CCGTAATGCT AACTAATGAT 
16040 16050 16060 16070 16080 16090 16100 

x Rsal> < NlalV 
>< Mnll 

>< Csp6I x Ddel x Rsal 

X BsrI x Mnll >< Csp6l 

X Afal> < BscBI X Afal Sfcl X 

AACACCTCAC GGTACTGGGA ACCTGAGTTT TAT GAGGCTA TGTACACACC AC AT ACAGT C TTGCAGGCTG 

16110 16120 16130 16140 16150 16160 16170 

X NlalV 

X EcoNI 
x Eco31I 
>< Eco64IX BsmAI 

X BscBI X BslI 
X BanI X BsiYI 
X Acil >< Bsal 

X BspWI >< accBIIX Alw2 6I Bbvl x 

TAGGTGCTTG TGTATTGTGC AAT T C AC AG A CTTCACTTCG TTGCGGTGCC TGTATTAGGA GACCATTCCT 
16180 16190 16200 16210 16220 16230 " 16240 

X Tthllll 

>< Fnu4HI x Nlalll > < T ru9I 

x BspWI x Aspl > < MseI 

ATGTTGCAAG TGCTGCTATG ACCATGTCAT TTCAACATCA CACAAATTAG TGTTGTCTGT TAATCCCTAT 

16250 16260 16270 16280 16290 16300 16310 



>< ScrFI 
>< Mval 



FIGURE 13.37 
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>< EcoRII 

X EC1136I 
>< DsaV 

>< BstOI 

>< BstNI 

X BsiLI ><c RmaI 

>< BsaJI >< Mnll BspWI X 

>< Apyl >< Maelll >< Maelll >< Mael >< Alul 

GTTTGCAATG CCCCAGGTTG TGATGTCACT GATGTGACAC AACTGTATCT AGGAGGTATG AGCTATTATT 
16320 16330 16340 16350 16360 16370 16380 



x Maelll >< Mnll 

GCAAGTCACA TAAGCCTCCC ATTAGTTTTC CATTATGTGC TAATGGTCAG GTTTTTGGTT TATACAAAAA 
16390 16400 16410 16420 16430 16440 16450 



X Nspl 

X NspHI > < Tthllll 

X NlalllX Maellix Maelll 
x AflHI >< Aspl 



X Nspl 
X NspHI 
X Nlalll 
x AflHI 



CACATGTGTA GGCAGTGACA ATGTCACTGA CTTCAATGCG ATAGCAACAT GTGATTGGAC TAATGCTGGC 
16460 16470 16480 16490 16500 16510 16520 



x Rsal 
>< Plel 
X Ddel 
X Csp6I 

x BsmAI >< Hinfl >< Mnl1 

X Alw26I >< Hindlll . DdeI >< 

X Afal >< Alul >< Fnu4HI X Bbvl 

GAT T AC AT AC TTGCCAACAC TTGTACTGAG AGACT CAAGC TTTTCGCAGC AGAAACGCTC AAAGCCACTG 

' ~ " *~ *" "~" n s~c n> r\ 16590 



16530 



16540 



16550 



16560 



16570 



16580 



> < 

> < 



Tru9I 

Msel > < Ndel 
X Alul 



> < Thai 

>< Seal 
X Rsal >< Rsal 

> < Mvnl 

X Csp6I x Csp6I 

> < BstUI 

> < Bsp50I 

>< Afal x Afal 

> < AccII 



Mnll > 



AGGAAACATT TAAGCTGTCA TATGGTATTG CCACTGTACG CGAAGTACTC TCTGACAGAG AATTGCATCT 
16600 16610 16620 16630 16640 16650 16660 

Maelll >< 
x Maelll 
>< Eco0651 
X Eco91I 
X BstPI 

>< SfaNI >< RmaI >< BstEII 

X Nlalll >< Mael ><: BsrI 

TTCATGGGAG GTTGGAAAAC CTAGACCACC ATTGAACAGA AACTATGTCT TTACTGGTTA CCGTGTAACT 
16670 16680 16690 16700 16710 16720 16730 

Rsal X 
X Mnll 

X Rsal >< Rsal >< H P hI 

X Csp6I >< Csp6I >< SfaNI Csp6I >< 

X Afal >< Afal >< Maelll >< HphI Afal >< 

AAAAATAGTA AAGTACAGAT TGGAGAGTAC ACCTTTGAAA AAGGTGACTA TGGTGATGCT GTTGTGTACA 
16740 16750 16760 16770 16780 16790 16800 



FIGURE 13.38 
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>< Rsal >< HphI 

X Csp6I >< Hindll Ddel >< 

>< Afal >< Hindi Bfrl >< 

GAGGTACTAC GACATACAAG TTGAATGTTG GTGATTACTT TGTGTTGACA TCTCACACTG TAATGCCACT 
16810 16820 16830 16840 16850 16860 16870 

>< Vnel 
>< Snol 

>< Sdul 

>< NspII 

>< HgiAI > < Sdul 

>< Dralll > < NspII 

>< Bspl286I > < HgiAI 

X Bmyl >< BspWI >< Drain >< Rsal 

>< ApaLI X Rmal > < Bspl286I >< Csp6I 

X Alw4 4I >< Mael > < Bmyl >< BsrI 

X Alw21I > < Alw21I >< Afal Ddel > 
TAGTGCACCT ACTCTAGTGC CACAAGAGCA CTATGTGAGA ATTACTGGCT TGTACCCAAC ACTCAACATC 

16880 16890 16900 16910 16920 16930 16940 

Styl >< 

SinI > 
Sau96I > 
MspIV > 
EcoT14I >< 

Eco47I > 
Ecol30I >< 
>< Seal Cfrl3l > 
BssTlI >< 
>< SphI X Rsal BsiZI -2> 
>< Pael BsaJI >< 

X Nlalll Bmel8I > 

X Rmal >< NspIX Csp6I Avail > 

>< Mael >< NspHIX Afal Asul > 

TCAGATGAGT TTTCTAGCAA TGTTGCAAAT TATCAAAAGG TCGGCATGCA AAAGTACTCT ACACTCCAAG 
16950 16960 16970 16980 16990 17000 17010 



>< ScrFI 

X Rsal 
x Mval 
X EcoRII 
x Ecll36I 

> < Csp6I 
X BstOI 
X BstNI 
X Xcml X BslI 
X NspHII X BsiYI 

- - X BsiLI 

x Apyl >< BsrI 
X DsaVX Afal > < Hinfix Plel 
GACCACCTGG TACTGGTAAG AGTCATTTTG CCATCGGACT TGCTCTCTAT TACCCATCTG CTCGCATAGT 
17020 17030 17040 17050 17060 17070 17080 



>< 

x SphI 
x Pael 
x Nspl 
X NspHI 
X Bstll07I > 
X AccI X Nlalll 
GTATACGGCA TGCTCTCATG 
17090 17100 



SfaNI 

X PvuII 
X PspSI 
X NspBII 

X Fnu4HI > < Tru9I 

< NlalllX BspWI X Sspl 

X Alul >< Bbvl > < Msel 
CAGCTGTTGA TGCCCTATGT GAAAAGGCAT TAAAAT AT T T GCCCATAGAT 

17110 17120 17130 17140 17150 

FIGURE 13.39 
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> < Thai 
>< Thai 

> < Mvnl 
>< Mvnl >< Thai 

> < HinPH 
>< HinPH 

>< HinPlI >< Mvnl 

> < Hin6I 
>< Hin6I 

> < Hhal 
>< Hhal >< Hhal 

> < Cfol 
>< Cfol >< Cfol 

> < BstUI 
X BstUI >< BstUI 

X BssHII 
>< BspMI 

> < Bsp50I 

X BspSOlX BspSOI Rmal > 

>< Tfil >< Hin6I> < AccII Mael > 

>< Hinfl >< AccII >< AccII > < EcoRI 

AAATGTAGTA GAATCATACC TGCGCGTGCG CGCGTAGAGT GTTTTGATAA ATTCAAAGTG AATTCAACAC 
17160 17170 17180 17190 17200 17210 17220 

>< 2sp2I 
>< PpulOI 

>< Nsil 

>< Mphll03I 

X EcoT22I 

>< Bsgl > < Avalll >< DrdI 

TAGAACAGTA TGTTTTCTGC ACTGTAAATG CATTGCCAGA AACAACTGCT GACATTGTAG TCTTTGATGA 
17230 17240 17250 17260 17270 17280 17290 

X Rmal 

X Mael >< Maell 

AATCTCTATG GCTACTAATT ATGACTTGAG TGTTGTCAAT GCTAGACTTC GTGCAAAACA CTACGTCTAT 

17300 17310 17320 17330 17340 17350 17360 

>< Sau3AI 
>< Ndell 
>< Mbol 
X DpnII 
>< Dpnl 

>< BspAI >< Rmal 

>< AlwlX Bspl43I >.< Acil X Mael Sspl X 

ATTGGCGATC CTGCTCAATT ACCAGCCCCC CGCACATTGC TGACTAAAGG CACACTAGAA CCAGAATATT 

17370 17380 17390 17400 17410 17420 17430 

X SinI 
>< Sau96I 

X NspIV >< Styl 

X NspHII X Nspl 

X Eco4 7I X NspHI 

X Cfrl3I X Nlalll 

X BsiZI X EcoT14I 

X Bsgl X Ecol30I 

X Bmel8I >< BssTlI 

X Tru9I >< Avail >< BsaJI 

X Msel X Asul> < Afllll 

TTAATTCAGT GTGCAGACTT ATGAAAACAA TAGGTCCAGA CATGTTCCTT GGAACTTGTC GCCGTTGTCC 

17440 17450 17460 17470 17480 17490 17500 

FIGURE 13.40 
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>< Hindll 

>< Hindi >< Alul 

TGCTGAAATT GTTGACACTG TGAGTGCTTT AGTTTATGAC AATAAGCTAA AAGCACACAA GGATAAGTCA 
17510 17520 17530 17540 17550 17560 17570 

>< Alul >< Nlalll 

GCTCAATGCT TCAAAATGTT CTACAAAGGT GTTATTACAC ATGATGTTTC ATCTGCAATC AACAGACCTC 
17580 17590 17600 17610 17620 17630 17640 

>< Mnll 
>< EcoNI 

>< BslI >< HphI 

>< BsiYI >< Alul 

AAATAGGCGT TGTAAGAGAA TTTCTTACAC GCAATCCTGC TTGGAGAAAA GCTGTTTTTA TCTCACCTTA 
17650 17660 17670 17680 17690 17700 17710 

>< Sfcl X Ddel >< Tfil 

> < Alul >< Bfrl >< Hinfl 

TAATTCACAG AACGCTGTAG CTTCAAAAAT CTTAGGATTG CCTACGCAGA CTGTTGATTC ATCACAGGGT 

17720 17730 17740 17750 17760 17770 17780 



> < Hindll 

>< Tthllll > < Hindi 

X Aspl >< Acil 

TCTGAATATG ACTATGTCAT ATTCACACAA ACT AC TG AAA CAGCACACTC TTGTAATGTC AACCGCTTCA 



17790 



17800 



17810 



17820 



17830 



17840 



17850 



X 
X 
X 
X 
X 



XhoII 

Sau3AI 

Ndell 

Mfll 

Mbol 



>< MamI 
X DpnII 

>< Dpnl 
X BstYI 
>< BspAI 

X Bspl43I 
X BsiBI 
>< BsaBI 
X BspWI x Bglll 

ATGTGGCTAT CACAAG GGCA AAAATTGGCA TTTTGTGCAT AATGTCTGAT AGAGATCTTT ATGACAAACT 
17860 17870 17880 17890 17900 17910 17920 

>< Xbal 

>< Rmal >< Maelll 

>< Mael* ' x Maell BsrI x 

GCAATTTACA AG TC TAG AAA TACCACGTCG CAATGTGGCT AC AT T AC AAG CAGAAAATGT AACTGGACTT 



17930 



17940 



17950 



17960 



17970 



17980 



17990 



X Tru9I 

X MselX Sfcl 



>< Sau3AI 
X Ndell 

>< MboII 
X Mbol 

> < Fokl 
>< DpnII 

X Dpnl 
>< BspAI 

X Bspl43I 

X Bbsl > < BsrI 



>< NlalV 
>< Eco64I 

X BscBI 
>< BanI 
>< AccBlI 



Mnll X 
>< Ddel 



FIGURE 13. 41 
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TTTAAGGACT GTAGTAAGAT CAT TACT GGT CTTCATCCTA CACAGGCACC TACACACCTC AGCGTTGATA 
18000 18010 18020 18030 18040 18050 18060 



>< ScrFI 
>< Mval 
>< EcoRII 
>< Eco57I 

X Ecll36I 
>< DsaV 
X BstOI 
X BstNI 
>< Hindllx BsiLI 
>< Hind IX Apyl 

TAAAGTTCAA GACTGAAGGA TTATGTGTTG ACATACCAGG CATACCAAAG GACATGACCT ACCGTAGACT 
18070 18080 18090 18100 18110 18120 18130 



><: Plel 
>< Nlalll 

Hinfl X 
AccI X 



>< Maelll Thai >< 

X Eco0651 Mvnl X 

>< Eco91I BstUI X 

X BstXI Bsp50I >< 

X BstPI X Acil 

>< BstEII X HphI AccII >< 

CATCTCTATG ATGGGTTTCA AAAT GAATT A CCAAGTCAAT GGTTACCCTA ATATGTTTAT CACCCGCGAA 

18140 18150 18160 18170 18180 18190 18200 

>< XmnI 

> < MboII >< sfaNI 

> < Maelll >< Rjnax 
X Asp700I >< Nlalll 

x Alul x Maell x Mnll >< Mael 

GAAGCTATTC GTCACGTTCG TGCGTGGATT GGCTTTGATG TAGAGGGCTG TCATGCAACT AGAGATGCTG 



18210 



18220 



18230 



18240 



18250 



18260 



18270 



X Rsal 
X Gsul 

>< Csp6I 
>< Bpml 

>< Afal 



X Rmal 

X Mnll 
X Mael 
>< Alul 



>< Sfcl 



X Tru9l 
x Msel 
>< Hpal 

x Hindll >< Rsal 

>< Hindi x Csp6I 

>< Ddel x Alul BsrI X 
>< Bfrl x Afal 



TGGGTACTAA CCTACCTCTC CAGCTAGGAT TTTCTACAGG TGTTAACTTA GTAGCTGTAC CGACTGGTTA 
18280 18290 18300 18310 18320 18330 18340 



X Hindll 
>< Hindi 



x 



HphI 

X EcoRI 



X Tru9I 
>< Msel 

FIGURE 13.42 



X ScrFI 
X Mval 

X Mnll 
>< Maelll 
X EcoRII 

X EC00651 
>< EcoNI 

X Eco91I 
X Ecll36I 
x DsaV Tru9I x 
>< Drain 
>< BstPI 
X BstOI 

X BstNI Pmel X 
x BstEII 
>< BslI Msel >< 
X BsiYI HphI X 
>< BsiLI Dral >< 
>< Apyl X BsrI 
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TGTTGRCACT C^TTCAC C M ™ GC^CCTC C AC ™ CCAGTTTAAA 

>< ScrFI 
X Mval 
>< EcoRII 

>< Ecll36I 
>< DsaV 
X BstOI 
>< BstNI 
>< BsiLI 
>< BsaJI 
>< Nlalll >< Apyl 

CATCTTATAC CACTCATGTA TAAAGGCTTG CCCTGGAATG TAGTGCGTAT T AAG AT AG T A CAAATGCTCA 
18420 18430 18440 18450 18460 18470 18480 

>< Nlalll 
>< HinPlI 
>< Tthllll >< Hin6I 

>< Hinfl > < » haI 

>< Aspl >< Plel > < Cfol >< Alul 

G T GAT AC ACT GAAAGGATTG TCAGACAGAG TCGTGTTCGT CCTTTGGGCG CATGGCTTTG AGCTTACATC 



>< Rsal 

Ddel >< 

> < Tru9I>< Csp6I 

> < Msel >< Afal 



18490 



18500 



>< Seal 
>< Rsal 
>< Csp6I 
>< Afal 



18510. 

>< SinI 
>< Sau96I 
>< NspIV 

X NspHII 
>< Eco47I 
>< Cfrl3I 
>< BsiZI 
>< Bmel8I 
>< Avail 
>< Asul 



>< Maell 

>< » it _ >< AflHI >< Maellix Maell 

AATGAAGTAC TTTGTCAAGA TTGGACCTGA AAGAACGTGT TGTCTGTGTG ACAAACGTGC AACTTGCTTT 
18560 18570 18580 18590 18600 18610 18620 



> < Tfil >< Tthllll 

> < Hinfl > < Aspl 

TCTACTTCAT C AGAT ACT T A TGCCTGCTGG AATCATTCTG TGGGTTTTGA CTATGTCTAT AACCCATTTA 

18630 18640 18650 18660 18670 18680 18690 

>< ScrFI 
Rsal >< 
>< Mval 
>< EcoRII 
Ecll36I >< 

X DsaV 
Csp6I X 

BstXI X 

Maelll >< Bst01 

ECO0651 >< BstNI 

Eco91I >< BsiLI 

BstPI >< A pyl 

BstEII X Maelll X Nlalll Afal >< 
TGATTGATGT TCAGCAGTGG GGCTTTACGG GTAACCTTCA GAGTAACCAT GACCAACATT GCCAGGTACA 
^ 1870 0 18710 18720 18730 18740 18750 18760 



X 



> 
> 
> 
> 

Eco57I> 



>< SfaNI 
X Rmal 
X Nspl 
>< NspHI 



FIGURE 13.43 
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>< Nlalll >< Rmal 

>< Mael >< NlaXII Tru9I >< 

>< Nlalll >< BspWI >< Mael X Nlalll 

> < AflHI >< BspHI Msel >< 
TGGAAATGCA CATGTGGCTA GTTGTGATGC TATCATGACT AGATGTTTAG CAGTCCATGA GTGCTTTGTT 

18770 18780 18790 18800 18810 18820 18830 

>< Thai 

>< Mvnl 
>< HinPlI 
x Hin6I 

>< Hhal 

>< Cfol 

X BstUI >< EcoNI> < Mnll 

x BspSOI >< BslI x Tru9I 

X AccII >< BsiYI x Ddel X Msel 

AAGCGCGTTG ATTGGTCTGT TGAATACCCT ATTATAGGAG ATGAACTGAG GGTTAATTCT GCTTGCAGAA 
18840 18850 18860 18870 18880 18890 ' 18900 

X Rsal 

X Csp6I >< MboII > < Nlalll 

X Afal X Nlalll x BspWI X BsrI X BspHI 

AAGTACAACA CATGGTTGTG AAGTCTGCAT TGCTTGCTGA TAAGTTTCCA GTTCTTCATG ACATTGGAAA 
18910 18920 18930 18940 18950 18960 18970 

X Saul 
X Mstll 
X Eco81I 

x Ddel Nlalll X 

>< Cvnl >< Espl 

x Bsu36I >< Eco57I Maelll X 

X Bse21I >< Ddel 

X Axyl >< Celll 

X AocI X Mnll X SfaNI >< Bpull02I 

TCCAAAGGCT ATCAAGTGTG TGCCTCAGGC TGAAGTAGAA TGGAAGTTCT ACGATGCTCA GCCATGTAGT 

18980 18990 19000 19010 19020 19030 19040 

X Mnll >< Ksp632I 

>< Hindlll >< Earl 

>< Alul >< MboII X Eamll04I 

GACAAAGCTT ACAAAATAGA GGAACTCTTC TATTCTTATG CTACACATCA CGATAAATTC ACTGATGGTG 
19050 19060 19070 19080 19090 19100 19110 

X Sau3AI 
x Ndell 
X Mbol 
>< MaeII> < Maelll 
X DpnII 
X Dpnl 

X BspAI Hinf I > 

X Maelll >< Bspl4 3I >< Muni DrdI X 

TTTGTTTGTT TTGGAATTGT AACGTTGATC GTTACCCAGC CAATGCAATT GTGTGTAGGT TTGACACAAG 
19120 19130 19140 19150 19160 19170 19180 

Zsp2I X 

X SphI 
> < PpulOI 
>< Pael 
>< Nspl 

X ScrFI >< NspHI 

>< Mval >< Nlalll 

X EcoRII Mphll03I x 

FIGURE 13.44 
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>< EC1136I >< Gsul 

>< DsaV EcoT22I >< 

>< BstOI >< BsmI 

>< BstNI >< BscCI 

>< BsiLI >< Bpml >< Nsil 

X Plel >< Apyl >< Avalll 
AGTCTTGTCA AACTTGAACT TACCAGGCTG TGATGGTGGT AGTTTGTATG TGAATAAGCA TGCATTCCAC 

19190 19200 19210 19220 19230 19240 19250 

>< Tru9I 

> < Muni 

>< TthHB8I X Msel 

>< Bcgl/a >< TaqI >< Dral 

>< Alul >< Bcgl 

ACTCCAGCTT TCGATAAAAG TGCATTTACT AATTTAAAGC AATTGCCTTT CTTTTACTAT TCTGATAGTC 
19260 19270 19280 19290 19300 19310 19320 

>< Plel SfaNI >< 

>< Nlalll >< Maell 

>< BsmAI BsaAI >< 

>< Hinfix Alw26I AflHI >< 

CTTGTGAGTC TCATGGCAAA CAAGTAGTGT CGGATATTGA TTATGTTCCA CTCAAATCTG CTACGTGTAT 

19330 19340 19350 19360 19370 19380 19390 

2sp2I > 
>< Seal 

PpulOI >< 
X RsalNsil > 
Mphll03I > 
>< SfaNIEcoT22I > 
> < Rsal >< Csp6I 
>< Csp6I Aval I I X 

>< NlaIII> < Afal >< Afal 
TACACGATGC AATTTAGGTG GTGCTGTTTG CAGACACCAT GCAAATGAGT ACCGACAGTA CTTGGATGCA 
19400 19410 19420 19430 19440 19450 19460 

>< Fokl 

TATAATATGA TGATTTCTGC TGGATTTAGC CTATGGATTT ACAAACAATT TGATACTTAT AACCTGTGGA 
19470 19480 19490 19500 19510 19520 19530 

>< ScrFI 

>< Mval 
>< Maelll 
>< EcoRII 

>< EC1136I 
>< DsaV 

>< BstOI 

X BstNI ... 
>< BsiLI >< Tru9I 

>< Apyl x Msel 

ATACATTTAC CAGGT TACAG AGTTTAGAAA ATGTGGCTTA TAATGTTGTT AATAAAGGAC ACTTTGATGG 
19540 19550 19560 19570 19580 19590 19600 

>< SgrAI 
>< Nael 

>< Mspl > < Vspl 

X Hpall > < Tru9I 

>< HapII > < Msel 

>< CfrlOI > < Asnl 

>< BspWI > < Asel 
ACACGCCGGC GAAGCACCTG TTTCCATCAT TAATAATGCT GTTTACACAA AGGTAGATGG TATTGATGTG 

19610 19620 19630 19640 19650 19660 19670 

FIGURE 13. 45 
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>< XhoII 
>< Sau3AI 
>< Ndell 
>< Mfll 
>< Mbol 
>< DpnII 

>< Dpnl 
>< BstYI 
>< BspAI 

>< Bspl43I 
>< Bglll 



>< Maelll 
>< Espl 

>< DdeITru9I >< 
>< CelllMsel >< 



>< Tru9I 

X Msel >< Alul 

GAGATCTTTG AAAATAAGAC AACACTTCCT GTTAATGTTG CATTTGAGCT TTGGGCTAAG CGTAACATTA 
19680 19690 19700 19710 19720 19730 19740 



>< Bpull02I 



>< Fnu4HI 

>< Tru9I >< EcoRV 

>< BsrI >< Msel >< Bbvl >< Eco32I 

AACCAGTGCC AGAGATTAAG ATACTCAATA ATTTGGGTGT TGATATCGCT GCTAATACTG TAATCTGGGA 
19750 19760 19770 19780 19790 19800 19810 

>< Nspl 
>< NspHI 
>< Nlalll 
>< Bsgl 
>< AflHI 

CTACAAAAGA GAAGCCCCAG CACATGTATC TACAATAGGT GTCTGCACAA TGACTGACAT TGCCAAGAAA 
19820 19830 19840 19850 19860 19870 19880 

>< DdelX MboII ><: AccI 

CCTACTGAGA GTGCTTGTTC TTCACTTACT GTCTTGTTTG ATGGTAGAGT GGAAGGACAG GTAGACCTTT 
19890 19900 19910 19920 19930 19940 19950 



>< Tru9l 
>< Msel 



SinI >< 
Sau96I X 
NspIV >< 
NspHII x 
NlalV X 
Eco47I X 
Cfrl3I x 

>< BslI 
BsiZI X 

X BsiYI 
BscBI X 
Bmel8I X 
Avail X 
Asul X 



TTAGAAACGC CCGTAATGGT GTTTTAATAA CAGAAGGTTC AG T CAAAGGT CTAACACCTT CAAAGGGACC 
19960 19970 19980 19990 20000 20010 20020 

X Vspl 
>< Tru9I 
>< Plel 
X Msel 
>< Maelll 

X Asnl x Tfil 
>< HinfIX Asel X Hinfl 



>< Rmal 
>< Nhel 
X Mael 
>< Hgalx Alul 



Tru9l X 
>< Tru9I 

Msel X 
X Msel 



- — - - - *™ Haei 

AGCACAAGCT AGCGTCAATG GAGTCACATT AATTGGAGAA TCAGTAAAAA CACAGTTTAA CTACTTTAAG 
20030 20040 20050 20060 20070 20080 20090 



X Ddel >< Mnll Tru9I X 
X BsmAI x Ddel 



FIGURE 13.4 6 
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>< AccI >< Alw26I >< BfrlMsel >< 

AAAGTAGACG GCATTATTCA ACAGTTGCCT GAAACCTACT TTACTCAGAG CAGAGACTTA GAGGATTTTA 
20100 20110 20120 20130 20140 20150 20160 



>< Xcml 
>< Sau3AI 
>< Ndell 
>< Mbol 
>< DpnII 

>< Dpnl 
>< BspAI 

>< Bspl4 3I 



> 
> 



> 
> 

> 
> 
> 
> 
> 



>< TthHB8I 
X TaqI 

>< SstI 

>< Sdul Xhol >< 

X SacI TthHB8I > 

PaeR7I TaqI > 

NspIII Slal X 

>< NspII PaeR7I x 

X HgiAI NspIII >< 

Eco88I >< Mnll 

XhoIX Eco24I Eco88I X 

X Ecll36II Ccrl x 

SlalX Bspl286I BspWI >< 

CcrIX Bmyl Bcol X 

BcoIX Banll > < Bcgl/a 

Ama87I Aval >< 

AvalX Alw21I Ama87I X 
X Alul >< EcoRI >< FoklAluI X 
AGCCCAGATC ACAAATGGAA ACTGACTTTC TCGAGCTCGC TATGGATGAA TTCATACAGC GATATAAGCT 

20170 20180 20190 20200 20210 20220 20230 



X TthHB8I 
X TaqI , 

X Sful ^' 

X NspV 

X Lspl 

X Csp4 5I 

X BstBI 

X Bspll9I 

X BsiCI >< Mbol I 

X Bpul4I >< Bbsl Tru9I X 

X AsuII X Bcgl >< Nlalll X AcilMsel >< 

CGAGGGCTAT GCCTTCGAAC ACATCGTTTA TGGAGATTTC AGTCATGGAC AACTTGGCGG TCTTCATTTA 
20240 20250 20260 20270 20280 20290 20300 



>< HphI 
x HinPlI 
x Hin6I 
>< Espl > < Hhal X Tfil 

x Ddel x Haell 

X Celll X Eco47III 
X Bpull02I > < Cfol X Hinfl 
X Bfrl X Bspl43II 



X Tru9I 
X Msel 
X Mnll 



ATGATAGGCT TAGCCAAGCG CTCACAAGAT TCACCACTTA AATTAGAGGA TTTTATCCCT ATGGACAGCA 



20310 



20320 



20330 



20340 



20350 



20360 



20370 



X SfaMI 



X MstI 
X HinPlI 
X Hin6I 
X Hhal 
X Fspl 
x Fdill 
x Cfol 
X Avill 



Sau3AI X 
Ndell X 
Mbol X 
DpnII >< 

Dpnl >< 
BspAI X 
Bspl43I >< 



CAGT GAAAAA TTACTTCATA ACAGATG CGC AAACAGGTTC ATCAAAATGT GTGTGTTCTG TGATTGATCT 
20380 20390 20400 20410 20420 20430 20440 



X TthHB8I 
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>< Tthllll 
>< TaqI 

>< Aspl > < Maelll Maelll >< 

TTTACTTGAT GACTTTGTCG AGATAATAAA GTCACAAGAT TTGTCAGTGA TTTCAAAAGT GGTCAAGGTT 
20450 20460 20470 20480 20490 20500 20510 



>< Nspl 
>< NspHI 
>< Nlalll 
>< Fokl 

>< Muni > < Nlalll >< Afllll 

ACAATTGACT ATGCTGAAAT TTCATTCATG CTTTGGTGTA AGGATGGACA TGTTGAAACC TTCTACCCAA 
20520 20530 20540 20550 20560 20570 20580 



>< SfaNI 
>< ScrFI 
>< Mval 
>< EcoRII 

>< Ecll36I 
>< DsaV 
>< BstOI 
>< BstNI 
X BsiLI 
>< BspWI X Apyl 

AACTACAAGC AAGTCAAGCG TGGCAACCAG GTGTTGCGAT GCCTAACTTG TACAAGATGC AAAGAATGCT 
20590 20600 20610 20620 20630 20640 20650 



>< SfaNI 

>< Rsal 
> < Csp6l 
>< Afal 



BspWI >< 

BsmI 
BscCI >< 



>< Eco57I >< Maelll >< HphI 

TCTTGAAAAG TGTGACCTTC AGAATTATGG TGAAAATGCT GTTATACCAA AAGGAATAAT GATGAATGTC 
20660 20670 20680 20690 20700 20710 20720 



> < Rsal 
>< Csp6I 

>< Bstll07I >< Tru9I >< Alul 

>< AccI >< Msel > < AfalNlalll >< 

GCAAAGTATA CTCAACTGTG TCAATACTTA AATACACTTA CTTTAGCTGT ACCCTACAAC AT GAG AG T T A 
20730 20740 20750 20760 20770 20780 20790 



>< ScrFI 

>< Rsal 
>< Mval 
>< EcoRII X NspBII 

>< Ecll36I >< Sdul . 

> < Csp6I >< NspII 

>< BstOI >< PvuIIX HgiAI 
X BstNI >< Ddel 

X BsiLI X PspSIX Bspl286I 
X Apyl X Alul >< Bmyl 
>< DsaVX Afal >< Alw21I 

TTCACTTTGG TGCTGGCTCT GATAAAGGAG TTGCACCAGG TACAGCTGTG CTCAGACAAT GGTTGCCAAC 
20800 20810 20820 20830 20840 20850 20860 

X XhoII 

X Tru9I 
>< Sau3AI 
>< Ndell 
X TthHB8I X Msel 
X Mfll 
>< Mbol 
X MamI 
x DpnII 
x Tfil >< Dpnl 



FIGURE 13. 48 
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>< BstYI 
>< BspAI 
>< HinfIX Bspl43I 

X BsiBI 

>< BsaBI 



> < Tfil 

> < Hinfl 

>< Esp3I >< Tru9I 

X Tthllll >< BsmBI >< Msel 

>< BsmAI > < BsmAI 



>< BsrI >< TaqI >< Bglll >< Aspl >< Alw26I >< Hgal> < Alw26I 

TGGCACACTA CTTGTCGATT CAGATCTTAA TGACTTCGTC TCCGACGCAG ATTCTACTTT AATTGGAGAC 
20870 20880 20890 20900 20910 20920 20930 

>< Styl 

>< SinI 
X Sau96I 

> < SinI >< R^al 

> < Sau96I >< NspIV 

NspHII X 

X Mael 



X Rsal 
> < Csp6I 
X Afal 



< SinI 

< Sau96I 

>< PssI 
X PspSII 

< PpuMI 

< NspIV 
X NspHII 
X NlalV 

< Eco0109I 

< Eco47I 

< Drall 

< Cfrl3I 

< BsiZI 
X BscBI 

< Bmel8I 

< Avail 

< Asul 



X 


ECOT14I 




X Eco47I 


X 


Ecol30I 




X Cfrl3I 


X 


BssTlI 




>< BsiZI 


X 


BsaJI 




>< Bmel8I 


X 


Blnl 


X 


Avrll 



TGTGCAACAG TACATACGGC TAATAAATGG GACCTTATTA 
20940 20950 20960 20970 



X Avail 
X Asul 
Afllll, X 

TTAGCGATAT GTATGACCCT AGGACCAAAC 
20980 20990 21000 



X Nspl 
X NspHI 

x Nlalll X Plel RmaI - >K 

x Maelll >< Hinfl MaeI >< 

ATGTGACAAA AGAGAATGAC TCTAAAGAAG GGTTTTTCAC TTATCTGTGT GGATTTATAA AGCAAAAACT 
21010 21020 21030 21040 21050 21060 21070 



x ScrFI 

>< Mval 
X EcoRII 

>< Ecll36T 
X DsaV 

X BstOI Sau96I > 

X BstNI Ns P IV > 

X BsiLI cfr131 > 

x BsaJI • - - -• ■ - BsizI > 

X BsaJI >< Sfcl >< BsmI >< BsmI Asul > 

X Apyl > < Alul >< BscCI >< BscCIHindlll XX Alul 

AGCCCTGGGT GGTTCTATAG CTGTAAAGAT AACAGAGCAT TCTTGGAATG CTGACCTTTA CAAGCTTATG 
21080 21090 21100 21110 21120 21130 21140 

X Zsp2I 
X PpulOI 

x Pall >< NsiI 

X Haelll ><c Mphll03I 

X BsuRI >< Maelll >< EcoT22I 

X BshI x Nlallix Alul >< Bcgl >< Avalll >< SfaNIBcgl/a >< 

GGCCATTTCT CATGGTGGAC AGCTTTTGTT ACAAAT GTAA ATGCATCATC ATCGGAAGCA TTTTTAATTG 
21150 21160 21170 21180 21190 21200 21210 



Tru9I X 

>< Msel 



FIGURE 13.49 
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>< Zsp2I 
>< SphI 
>< PpulOI 

>< Pael 
>< Nspl 
>< NspHI 
>< Nsil 

>< Nlalll 

> < Nlalll 

>< Mphll03I 
>< EcoT22I 

> < Avalll >< Mnll 
GGGCTAACTA TCTTGGCAAG CCGAAGGAAC AAATTGATGG CTATACCATG CATGCTAACT ACATTTTCTG 

21220 21230 21240 21250 21260 21270 21280 



>< MboII 
>< Gsul 
>< BsrI 
X Bpml 

>< Bbsl >< Nlalll 

GAGGAACACA AATCCTATCC AGTTGTCTTC CTATTCACTC TTTGACATGA GCAAATTTCC TCTTAAATTA 
21290 21300 21310 21320 21330 21340 21350 



Tru9I >< 
>< Tru9I 
Msel >< 
>< Msel 
Mnll >< 
>< Mnll 



>< Tru9I 
>< Msel 
>< Esp4I> < Tfil 

. X BsmAI x Ksp632I >< 

>< Alw26I x MboII x Earl 

X AflII> < Hinfl Eamll04I x 

AGAGGAACTG CTGTAATGTC TCTTAAGGAG AAT CAAATCA AT GATATGAT TTATTCTCTT CTGGAAAAAG 
21360 21370 21380 21390 21400 21410 21420 



X Tru9I 
X Msel 
X Hindll 
x Hindi 
X Hpal Afllll > 

GTAGGCTTAT CAT T AG AG AA AACAACAGAG TTGTGGTTTC AAGTGATATT CTTGTTAACA ACTAAACGAA 
21430 21440 21450 21460 21470 21480 21490 



>< Vnel 
>< Snol 

X Sdul 
>< NspII 
>< Hpall 

X HgiAI 
>< HapII 
X CfrlOI 

X Bspl28 6I 
>< MspIX Bmyl 

x Nspl X Spel >< ApaLI 

X NspHI X Rmal x Alw44I 

X Nlalll >< Mael >< Maelll >< Agel >< Alw21I 

CATGTTTATT TTCTTATTAT TTCTTACTCT CACTAGTGGT AGTGACCTTG ACCGGTGCAC CACTTT TG AT 
21500 21510 21520 21530 21540 21550 21560 



> < Alul >< Mnll 

GATGTTCAAG CTCCTAATTA CACTCAACAT ACTTCATCTA TGAGGGGGGT TTACTATCCT GATGAAATTT 

21570 21580 21590 21600 21610 21620 21630 

X Sau3AI 



FIGURE 13. 50 



64/83 



>< Ndell 
>< Mbol 
>< DpnII 

>< Dpnl >< Tru9I 

X BspAI >< Msel > < MboII 

>< Bspl43I >< Ddel >< Maelll 

TTAGATCAGA CACTCTTTAT TTAACTCAGG ATTTATTTCT TCCATTTTAT TCTAATGTTA CAGGGTTTCA 
21640 21650 21660 21670 21680 21690 21700 

>< Vspl 
>< Tru9I 
>< Msel 

>< Asnl >< Tru9I >< Fokl 

>< Asel >< Maell >< Msel X Bbvl > < Fnu4HI 

TACTATTAAT CATACGTTTG GCAACCCTGT CATACCTTTT AAGGATGGTA TTTATTTTGC TGCCACAGAG 
21710 21720 21730 21740 21750 21760 21770 

>< BslI 

>< Dsaix BsiYI >< Nlalll 

>< BsaJI > < Maelll 

AAATCAAATG TTGTCCGTGG TTGGGTTTTT GGTTCTACCA TGAACAACAA GTCACAGTCG GTGATTATTA 
21780 21790 21800 21810 21820 21830 21840 

>< Nspl 

>< Tru9I >< NspHI 

>< Msel >< Nlalll 

>< HphI >< Maelll >< Maelll 

TTAACAATTC TACTAATGTT GTTATACGAG CATGTAACTT TGAATTGTGT GACAACCCTT TCTTTGCTGT 
21850 21860 21870 21880 21890 21900 21910 

>< Styl >< Zsp2I 

>< Nlalll >< Tru9I 

>< Ncol >< Rsal >< PpulOI TthHB8I >< 

X EcoT14I >< Nsil X TaqI 

x Ecol30I x Msel SfaNI >< ■ 

X Dsaix Csp6I X Mphll03I Rsal x 

X BssTlI X TthHB8I X EcoT22I Csp6I X 

X BsaJIx Afal x TaqI >< Avalll Afal >< 

TTCTAAACCC ATGGGTACAC AGACACATAC TATGATATTC GATAATGCAT TTAATTGCAC TTTCGAGTAC 

21920 21930 21940 21950 21960 21970 21980 

X Tru9I 
X Msel 
X Dral 

ATATCTGATG CCTTTTCGCT TGATGTTTCA GAAAAGTCAG GTAATTTTAA ACACTTACGA GAGTTTGTGT 
21990 22000 22010 22020 22030 22040 22050 

>< Sau3AI 
>< Ndell 
>< Mbol 
>< DpnII 

>< Tru9I X Dpnl 

X Msel X BspAI 

X Dral X Sfcl Bspl4 3I X 

TTAAAAA.TAA AGATGGGTTT CTCTATGTTT ATAAGGGCTA TCAACCTATA GATGTAGTTC GTGATCTACC 
22060 22070 22080 22090 22100 22110 22120 

X Tru9I 

x Tru9I > < Tru9I X Msel 

x Msel > < Msel >< Mnll 

TTCTGGTTTT AACACTTTGA AACCTATTTT TAAGTTGCCT CTTGGTATTA ACATTACAAA TTTTAGAGCC 
22130 22140 22150 22160 22170 22180 22190 

FIGURE 13.51 
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> < Sdulx Sfcl 

>< PvuII 
X PspSI 

> < NspII 

>< NspBII 

> < Maell > < Fnu4HI 

> < Bspl286I >< PstI Tru9I > 
>< BspMI > < BmylX Fnu4HI Msel > 

x Hphl >< Bbvl >< A 2ul >< BbvT 

ATTCTTACAG CCTTTTCACC TGCTCAAGAC ATTTGGGGCA CGTCAGCTGC AGCCTATTTT GTTGGCTATT 
22200 22210 22220 22230 22240 22250 22260 

>< SfaNI 
>< Rsal 

> < Csp6I 

x Oral ><c AfaI ><: AI 

TAAAGCCAAC TACATTTATG CTCAAGTATG ATGAAAATGG TACAATCACA GATGCTGTTG ATTGTTCTCA 
22270 22280 22290 22300 22310 22320 22330 

> < Tru9l 

> < Msel 

>< Alul 

AAATCCACTT GCTGAACTCA AATGCTCTGT TAAGAGCTTT GAGATTGACA AAGGAATTTA CCAGACCTCT 
22340 22350 22360 22370 22380 22390 22400 

>< Saul 
>< Mstll 
x Eco81I 
X Ddel 
X Cvnl 
X Bsu36I 
>< Bse21I 

X Axyl >< TfiI 

^ >K Mnl1 ^ AoCl ><: Mnl1 >< HinfI >< Sspl MnlT 

AATTTCAGGG TTGTTCCCTC AGGAGATGTT GTGAGATTCC CTAATATTAb AAACTTGTGT CCTtSSaG 
22410 22420 22430 22440 22450 22460 22470 

X Zsp2I 
>< PpulOI 

>< Nsil 

> < Nlalll 
X Mphll03I 

X Tru9I ><r EcoT22I 

MseI X Avalll 

AGGTTTTTAA TGCTACTAAA TTCCCTTCTG TCTATGCATG GGAGAGAAAA AAAATTTCTA ATTGTGTTGC 
22480 22490 22500 22510 22520 22530 22540 

>< Sdul 
X NspII 
>< HgiAI 
X Bspl286l 

>K Bm y x >< Tru9I 

X Alw21I ><c Mse r 

TGATTACTCT GTGCTCTACA ACTCAACATT TTTTTCAACC TTTAAGTGCT ATGGCGTTTC mSaSaag 
22550 22560 22570 22580 22590 22600 22610 

x Sau3AI 
X Ndell 
>< Mbol 
X DpnII 
>< Dpnl 



FIGURE 1352 
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X BspAI >< Tfil 

>< Bspl43I >< Hinfl 

TTGAATGATC TTTGCTTCTC CAATGTCTAT GCAGATTCTT TTGTAGTCAA GGGAGATGAT G T AAGAC AAA 

22620 22630 22640 22650 22660 22670 22680 



>< ScrFI 
>< Mval 
>< HinPlI 
X Hin6I 
>< Hhal 

>< Haell 
>< EcoRII 

>< Ecll36I 
>< DsaV 
>< Cfol 
>< BstOI 
>< BstNI 
>< Bspl43II 
>< BsiLI 

>< Apyl > < BsrI >< Nlalll 

TAGCGCCAGG ACAAACTGGT GTTATTGCTG ATTATAATTA TAAATTGCCA GATGATTTCA TGGGTTGTGT 
22690 22700 22710 22720 22730 22740 22750 



>< SfaNI 

>< Rmal Ddel >< ; 

>< Mael >< BsrI Bfrl >< 

CCTTGCTTGG AATACT AG GA ACATTGATGC TACTTCAACT GGTAATTATA AT T AT AAAT A TAGGTATCTT 
22760 22770 22780 22790 22800 22810 22820* 



>< Sau96I 

>< Pall 
X NspIV 
> < Hindlll 

>< Haelll 
>< Eco0109I 
x Drall 
x Ddel 

x Cfrl3I 
>< BsuRI 
x BsiZI 
X BshI 
>< Bfrl x PssI 
X Nlalll x Asuix BsmAI 

X Alul X Alw26I BspWI X 

AGACATGGCA AGCTTAGGCC CTTTGAGAGA GAC AT AT CT A ATGTGCCTTT CTCCCCTGAT GGCAAACCTT 
22830 22840 22850 22860 22870 22880 22890 



>< Tru9I 
>< Pall 
X MscI 
>< Haelll 
X EaelX Msel 
X Tru9I X BsuRI 

x Msel >< BshI 

>< BspMI X Ball BsrI X 

GCACCCCACC TGCTCTTAAT TGTTATTGGC CATTAAATGA TTATGGTTTT TACACCACTA CTGGCATTGG 
22900 22910 22920 22930 22940 22950 22960 



Sau96I >< 
>< PallNspIV x 
> < Mspl NspHII >< 
x Haelll 



FIGURE 13.53 
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> < Hpall Eco47I >< 

>< Dsal 

> < HapII Cfrl3I >< 

>< BsuRISinI >< 

>< Gdill BsiZI >< 
>< Seal >< BsaJI 

>< Rsal >< Tru9I >< Eael Bmel8I >< 

>< Csp6l >< Msel >< CfrlOI Avail >< 

>< Afal >< Dral >< Bshl Asul x 

CTACCAACCT TACAGAGTTG TAGTACTTTC TTTTGAACTT TTAAATGCAC CGGCCACGGT TTGTGGACCA 
22970 22980 22990 23000 23010 23020 23030 

>< Tru9I >< Rsal 

>< Tru9I >< Csp6I 

>< Plel BsrI >< 

> < Tru9l >< Msel >< BsrI 

> < Mselx BsrI >< Msel >< Hinfl >< Afal 
AAATTATCCA CTGACCTTAT TAAGAACCAG TGTGTCAATT TTAATTTTAA TGGACTCACT GGTACTGGTG 

23040 23050 23060 23070 23080 23090 23100 

>< Tru9I >< palI 

MseI >< Haelll 

>< MboII, >< GdiII 

X Hpal >< EaeI 

X Hindu >< BsuRI Tfil X 

X Hindi ><: BshI Hinfl X 

TGTTAACTCC TTCTTCAAAG AGATTTCAAC CATTTCAACA ATTTGGCCGT GATGTTTCTG ATTTCACTGA 

23110 23120 23130 23140 23150 23160 23170 

> < XhoII 
X TthHB8I 
>< TaqI 

> < Sau3AI 

> < Ndell 

> < Mfll 

> < Mbol 

> < DpnII 

>< Dpnl 

> < BstYI 

> < BspAI > < sspl 

>< Alwl x Bspl4 3I x HphI 

TTCCGTTCGA GATCCTAAAA CATCTGAAAT ATTAGACATT TCACCTTGCT CTTTTGGGGG TGTAAGTGTA 
23180 23190 23200 23210 23220 23230 23240 

X ScrFI 
X Mval 
>< EcoRII 

X EC1136I >K Tru9I 

>K DsaV X Msel 

><c Bst01 X Hpal 

>< BstNI X Hindll 

><c BsiLI X Eco57I 

>< Apyl >< BsgI >K HincII 

ATTACACCTG GAACAAATGC TTCATCTGAA GTTGCTGTTC TATATCAAGA TGTTAACTGC ACTGATGTTT 
23250 23260 23270 23280 23290 23300 23310 

X Sau3AI 
>< Nlalll 
x Ndell 
X Mbol- 
>< DpnII 

>< Dpnl x HinPlI 



FIGURE 13. 54 
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>< BspWI >< Hin6l 

X BspAI > < Hhal Plel >< 

>< Sfcl >< Bspl4 3I >< Alul> < Cfol >< BsrI 

CTACAGCAAT TCATGCAGAT CAACTCACAC CAGCTTGGCG C AT AT AT TCT ACTGGAAACA ATGTATTCCA 



23320 



23330 



23340 



23350 



23360 



23370 



23380 



>< TthHB8I 
>< TaqI 
>< Sail 
>< Rtrl 
>< Nspl 
>< Espl >< NspHI 
>< Ddel >< Nlalll 
>< Celll >< Hindu 
>< Bpull02I>< Hindi 
X Hinfl >< Alul >< AccI 

GACTCAAGCA GGCTGTCTTA TAGGAGCTGA GCATGTCGAC ACT TCT T AT G AGTGCGACAT TCCTATTGGA 
23390 23400 23410 23420 23430 23440 23450 

> < SnaBI 

>< Seal 
X Rsal 
x Rmal 
>< Maell >< Mael 

> < EcolOSI 
X Rmal >< Csp6I 

>< Maelll > < BsaAI ; t 

>< Alul >< Mael >< Afal V 

GCTGGCATTT GTGCTAGTTA CCATACAGTT TCTTTATTAC GTAGTACTAG CCAAAAATCT ATTGTGGCTT 
23460 23470 23480 23490 23500 23510 23520 

>< Muni 

ATACTATGTC TTTAGGTGCT GATAGTTCAA TTGCTTACTC TAATAACACC AT T G CT AT AC CTACTAACTT 
23530 23540 23550 23560 23570 23580 23590 

Rsal >< 
>< Mnll 

Csp6I >< 

>< Sfd Afal >< 

TTCAATTAGC ATTACTACAG AAGTAATGCC TGTTTCTATG GCTAAAACCT CCG TAGATTG TAATATGTAC 
23600 23610 23620 23630 23640 23650 23660 

> < Tfil 

> < Hinfl 

>< Acil > < Alul 

ATCTGCGGAG ATTCTACTGA ATGTGCTAAT TTGCTTCTCC AATATGGTAG CTTTTGCACA CAAC TAAATC 
23670 23680 23690 23700 23710 23720 23730 



>< Vnel 

>< Sdul 
>< NspII 

>< HgiAI >< Pmll 

>< Snoix Ddel >< Sau3AI >< PraaCI 

>< Bspl286I >< Ndell >< Maell 

X Bmyl >< Mbol >< Eco72I 

X Bbvl >< Dpnl X BsaAI 

>< ApaLI X Bspl43I >< BbrPI 

X Alw4 4I x DpnII X Alwl 

X Alw21I >< Fnu4HI X BspAI X AflHI 
GTGCACTCTC AGGTATTGCT GCTGAACAGG ATCGCAACAC ACGTGAAGTG TTCGCTCAAG TCAAACAAAT 

23740 23750 23760 23770 23780 23790 23800 



FIGURE 13.55 
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>< Rsal 

>< Csp6I >< Tru9I 

>K AfaI >< Sspl >< Msel >< sspl 

GTACAAAACC CCAACTTTGA AATATTTTGG TGGTTTTAAT TTTTCACAAA TATTACCTGA CCCTCTAAAG 
23810 23820 23830 23840 23850 23860 " 23870 

>< Mnll 

>< T , >< Tru91 >< SfaNI >< "P hI Nlalll >< 

><C n11 • >K MseI Maelll BspHI >< 

CCAACTAAGA GGTCTTTTAT TGAGGACTTG CTCTTTAATA AGGTGACACT CGCTGATGCT GGCTTCATGA 

23880 23890 23900 23910 23920 23930 23940 



>< 









>< XhoII 










>< Sau3AI 




>< Styl 




>< 


Rmal 




>< Rmal 






>< Ndell 




X Mael 






>< Mfll 




>< EcoT14I 






>< Mbol 


>< MstI 


>< Ecol30I 




>< 


Mael 


>< HinPlI 


>< BssTlI 


>< 


Vspl 


>< Dpnl I 


>< Hin6l 


>< Bsrol 




>< Hphl> < Dpnl 


>< Hhal 


BscCI 


>< 


Tru 9 1 


>< BstYI 


>< Fspl 


>< BsaJI 


>< 


Msel 


>< BspAI 


X Fdill 


>< Blnl 


>< 


Asnl 


> < Bspl43I 


>< Cfol 


>< Avrll 


X 


Asel 


>< Bglll 


>< Avill 



23950 



23960 



23970 



23980 



23990 



24000 



24010 



>< RmalRsal >< 
>< Mnll >< Fnu4HI >< Fnu4HI CspSl >< 

>< BspWI >< Bbvl >< Bbvl >< BspWI >< MaelAfal >< 

TACAGTGTTG CCACCTCTGC TCACTGATGA TATGATTGCT GCCTACACTG CTGCTCTAGT TAGTGGTACT 
24020 24030 24040 24050 24060 24070 24080 

>< Mbol I 
>< HinPlI 
>< Hin6I 
>< Hhal 
X Haell 

X Fnu4HI X Ksp632I 
X Cfol x Earl 
X BspWI X Eamll04I 
X Bspl4 3II 

GCCACTGCTG GATGGACATT TGGTGCTGGC GCTGCTCTTC AAATACCTTT TGCTATGCAA ATGGCATATA 
24090 24100 24110 24120 24130 24140 24150 



X Fokl 
>< Bbvl 



Tru 9 I X 

X Maelll MseI ><: 

GGTTCAATGG CATTGGAGTT ACCCAAAATG TTCTCTATGA GAACCAAAAA CAAATCGCCA ACCAATTTAA 
24160 24170 24180 24190 24200 24210 24220 



Maell >< 

><: TfiI X Fnu4HI 

>< Hinfl >< Bbvl >< Alul 

CAAGGCGATT AGTCAAATTC AAGAATCACT TACAACAACA TCAACTGCAT TGGGCAAGCT GCAAGACGTT 
24230 24240 24250 24260 24270 24280 24290 



>< Tru9I 
X Msel 
>< Hpal 

X Hindll >< BsmI x Tru9l 
X Hinclix BscCI x Msel 



>< Ddel 
>< Tru9I x Bfrl 
X Msel X Alul 

FIGURE 13. 5 6 
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GTTAACCAGA ATGCTCAAGC ATTAAACACA CTTGTTAAAC AACTTAGCTC TAATTTTGGT GCAATTTCAA 
24300 24310 24320 24330 24340 24350 24360 



>< Thai 
>< Spol 
>< Nrul 
>< Mvnl 

>< BstUI >< 
>< Bsp68l >< 
>< EcoRV >< BspSOI >< 
X Bco32I X AccII >< Mnll 
GTGTGCTAAA TGATATCCTT TCGCGACTTG ATAAAGTCGA GGCGGAGGTA CAAATTGACA GGTTAATTAC 
24370 24380 24390 24400 24410 24420 24430 



TthHBSI 

TaqI >< Rsal 

Mnll >< Csp6I 

>< AcilX Afal 



>< Tru9I 
>< Msel 



>< Maelll >< Bbvl >< Fnu4HI Bbvl X 

AGGCAGACTT CAAAGCCTTC AAACCTATGT AACACAACAA CTAAT CAGGG CTGCTGAAAT CAGGGCTTCT 
24440 24450 24460 24470 24480 24490 24500 



>< Fnu4HI >< Hindll 

>< BspWI X Ddel X Hindi 

GCTAATCTTG CTGCTACTAA AATGTCTGAG TGTGTTCTTG G ACAAT C AAA AAGAGTTGAC TTTTGTGGAA 



24510 



24520 



24530 



24540 



24550 



24560 



24570 



> 
> 
> 
X 



< Nspl 

< NspHI 

< Nlalll ' 
Maelll 

>< Maell 
Fokl 



X Nlalll 
X MboII X 
X Fnu4HI X Bbsl 
x Aciix Bbvl 

AGGGCTACCA CCTTATGTCC TTCCCACAAG CAGCCCCGCA TGGTGTTGTC TTCCTACATG TCACGTATGT 
24580 24590 24600 24610 24620 24630 24640 



BsaAI x 
X AflHI 



X ScrFI 
>< Mval 
>< EcoRII 
x Eel 13 61 
X BstOI 
>< BstNI 
X Mnll X BslI 
X DsaVX BsiYI 

>< BsiLI 
X BsaJIX HphI 
>< Apyl 



X HinPlI 
x Hin6I 
X Hhal 

x Haell 
X Cfol X Nlalll 

X Bspl43II X BspHI EcoNI X 

GCCATCCCAG GAGAGGAACT TCACCACAGC GCCAGCAATT TGTCATGAAG GCAAAG CAT A CTTCCCTCGT 
24650 24660 24670 24680 24690 24700 24710 



x Mnll 
X BslI X Tru9I 

X BsiYI X Msel X Mnll 

GAAGGTGTTT TTGTGTTTAA TGGCACTTCT TGGTTTATTA CACAG AG GAA CTTCTTTTCT CCACAAATAA 
24720 24730 24740 24750 24760 24770 24780 

x Ddel >< Tru9I 

X BsmAI >< SfaNI 

>< Sfcl >< Alw26l >< MselAlwI >< 

TTACTACAGA CAATAC ATT T GTCTCAGGAA ATTGTGATGT CGTTATTGGC ATCATTAACA ACACAGTTTA 
24790 24800 24810 24820 24830 24840 24850 

X Sau3AI 
>< Ndell 



FIGURE 13.57 
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>< Mbol >< Plel > < Seal 

>< DpnII >< Mnll > < Ksp632I > < Rsal 

>< Dpnl >< Ddel >< Hinfl >< MboII 

>< BspAI X BspWI > < Eamll04I >< Csp6l 

>< Bspl43I >< Alul > < Earl > < Alul > < Afal > < HphI 

TGATCCTCTG CAACCTGAGC TTGACTCATT CAAAGAAGAG CTGGACAAGT ACTTCAAAAA TCATACATCA 
24860 24870 24880 24890 24900 24910 24920 

X Sau3AI 
>< Ndell 
>< Mbol 
>< MamI 
>< DpnII 

>< Dpnl 
>< BspAI 

X Bspl43I 

>< BsiBI >< Tru9I >< Hindll 

X BsaBI >< Msel X Hindi Acil x 

CCAGATGTTG ATCTTGGCGA CATTTCAGGC ATTAACGCTT CTGTCGTCAA CAT TC AAAAA GAAATTGACC 
24930 24940 24950 24960 24970 24980 24990 

>< Tru9I 

> < Tfil 
>< Mnll x Swal 

X EcoNI >< Msel 

X BslI > < Hinfl 

>< Mnllx BsiYI >< Dral 

GCCTCAATGA GGTCGCTAAA AATTTAAATG AATCACTCAT TGACCTTCAA GAATTGGGAA AATATGAGCA 
25000 25010 25020 25030 25040 25050 25060 

X Styl 
X Pall 
x Haelll 

x EcoT14I 

x Ecol30I 
X BsuRI 

X BssTlI Nlalll X 

>< Tru9I>< BshI Maelll x 

>< Msel x BsaJI >< BstXI 

ATATAT TAAA TGGCCTTGGT ATGTTTGGCT CGGCTTCATT GCTGGACTAA TTGCCATCGT CATGGTTACA 
25070 25080 25090 25100 25110 25120 25130 

> < SphI 

> < Pael 

>< Spel > < NspI 

> < Rmal > < NspHI 
>< Nlalll > < N ialll 

> < Mac *I X Mnllx Bbvl Fnu4HI X 
ATCTTGCTTT GTTGCATGAC TAGTTGTTGC AGTTGCCTCA AGGGTGCATG CTCTTGTGGT TCTTGCTGCA 

25140 25150 25160 25170 25180 25190 25200 

X Fokl 
>< Ddel 

X Mnll X PlelX Hinfl X BsrI 

AGTTTGATGA GGATGACTCT GAGCCAGTTC TCAAGGGTGT CAAATTACAT TACACATAAA CGAACTTATG 
25210 25220 25230 25240 25250 25260 25270 

>< Sau3AI 
>< Ndell 
>< Mbol 
X DpnII 
> < Dpnl 



FIGURE 13, 58 
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>< BspAI 

> < Bspl4 3I 

>< Bsgl >< Alwl >< BsrI BspWI > 

GATTTGTTTA TGAGATTTTT TACTCTTGGA TCAATTACTG CACAGCCAGT AAAAATTGAC AATGCTTCTC 
25280 25290 25300 25310 25320 25330 25340 



>< Seal 
>< Rsal 
>< Csp6I >< Sfcl 

>< Afal >< Nlalll >< Acil >< Mnll Fokl > 

CTGCAAGTAC TGTTCATGCT ACAGCAACGA TACCGCTACA AGCCTCACTC CCTTTCGGAT GGCTTGTTAT 
25350 25360 25370 25380 25390 25400 25410 



> < HinPlI 

> < Hin6I 

>< Hhal 

>< Haell >< HinPlI 

>< Eco47III x Hin6l 

>< Cfol x Hhal 

X BspWI x Bspl4 3II x Cfol 
TGGCGTTGCA TTTCTTGCTG TTTTTCAGAG CGCTACCAAA ATAATTGCGC TCAATAAAAG ATGGCAGCTA 

25420 25430 25440 25450 25460 25470 25480 



Rmal X 
Nhel x 
Mael >< 
Fnu4HI X 

Alul X 



>< EcoNI 
X BslI 

X BsiYI >< Maelll 

>< Bbvl x BsrI X Bbvl > < Fnu4HI Bbvl X 

GCCCTTTATA AGGGCTTCCA GTTCATTTGC AATTTACTGC TGCTATTTGT TACCATCTAT TCACATCTTT 
25490 25500 25510 25520 25530 25540 25550 



Zsp2I X 
PpulOI X 

> < Sfcl x HinPlI NsiI >< 

x PstI x Hin6I x Rsal Mphll03I >< 

> < Fnu4HI >< Hhal X Csp6I EcoT22I X 
X BspMI X Mnll x Cfol X Afal >< Mnll Avalll >< 

TGCTTGTCGC TGCAGGTATG GAGGCGCAAT TTTTGTACCT CTATGCCTTG ATATATTTTC TACAATGCAT 
25560 25570 25580 25590 25600 25610 25620 

x SfaNI 
>< Nspl 
X NspHI 

>< Nlalll >< sfaNI 

CAACGCATGT AGAATTATTA TGAGATGTTG GCTTTGTTGG AAGTGCAAAT CCAAGAACCC AT TACT TT AT 
25630 25640 25650 25660 25670 25680 25690 



X Bstll07I 

- - X- AccI Maelll X 

GATGCCAACT ACTTTGTTTG CTGGCACACA CATAACTATG ACTACTG TAT ACCATATAAC AGTGTCACAG 
25700 25710 25720 25730 25740 25750 25760 



>< MboII 

X HphI BstXI X 

>< Muni X Maelll x Maelll >< Eco57I >< Bbsl Mnll > 

ATACAATTGT CGTTACTGAA GGTGACGGCA TTTCAACACC AAAACTCAAA GAAGACTACC AAATTGGTGG 
25770 25780 25790 25800 25810 25820 25830 



>< Rsal 

> < Nlalll 
>< HphI 
x Tru9I x Tthllllx Csp6I 
X Ddel x Ddel x Mselx Aspl x Afal 



FIGURE 1359 
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TTATTCTGAG GATAGGCACT CAGGTGTTAA AGACTATGTC GTTGTACATG GCTATTTCAC CGAAGTTTAC 
25840 25850 25860 25870 25880 25890 25900 

Tru9I >< 

> < Hinfix Plel >< BsrI Msel >< 

>< Alul >< AccI >< Sfcl >< AlwNI >< MboII Hindlll > 

TACCAGCTTG AGTCTACACA AATTACTACA GACACTGGTA TTGAAAATGC TACATTCTTC ATCTTTAACA 
25910 25920 25930 25940 25950 25960 25970 

> < TthHB8I 

>< Tru9I > < TaqI >< Ksp632I 

>< Msel > < MboII >< Earl BspWI >< 

>< Alul X Eco57I >< Eamll04I Alwl X 

AGCTTGTTAA AGACCCACCG AATGTGCAAA TACACACAAT CGACGGCTCT TCAGGAGTTG CTAATCCAGC 
25980 25990 26000 26010 26020 26030 26040 

X XhoII 
X Sau3AI 

>< NlalV 
x Ndell 
x Mfll 
>< Mbol 
x DpnII 

>< Dpnl 
X BstYI 
X BstI 
X BspAI 

>< Bspl43I Rsal >< 

X BscBI >< Rnial Csp6I >< 

X BamHI X Alwl >< Mael Afal X 

AATGGATCCA ATTTATGATG AGCCGACGAC GACTACTAGC GTGCCTTTGT AAGCACAAGA AAGTGAGTAC 
26050 26060 26070 26080 26090 26100 26110 

> < Tru9I 
x Rsal 

> < Msel 
X MboII 

> < Rsal x Maell x Rsal 
>< Csp6l x Csp6I x Tru9I x Csp6I 

> < Afal X Afal X Msel X Afal 
GAACTTATGT ACTCATTCGT TTCGGAAGAA ACAGGTACGT TAATAGTTAA TAGCGTACTT CTTTTTCTTG 

26120 26130 26140 26150 26160 26170 26180 

X TthHB8I 
X TaqI 

x Rmal x HinPlI > < Rsal 

> < Maelll x Hin6I Fnu4HI x 

>< Mael X Rmal x Hhal x Csp6I 

>< Fokl >< Mael >< Cfol >< Bbvl > < Afal 

CTTTCGTGGT ATTCTTGCTA GTCACACTAG CCATCCTTAC TGCGCTTCGA TTGTGTGCGT ACTGCTGCAA 
26190 26200 26210 26220 26230 26240 26250 

X Tru9I 

>< Tru9I >< Thai 

>< Msel >< Mvnl 

>< Sspl X Mael I >< Msel 

>< H PaI X BstUI Ksp632I > 

X Hindll >< Maell >< BspSOI x MboII Earl > 

>< Hindi >< AccI >< AccII Eamll04I > 

TATTGTTAAC GTGAGTTTAG TAAAACCAAC GGTTTACGTC TACTCGCGTG TTAAAAATCT GAACTCTTCT 

26260 26270 26280 26290 26300 26310 26320 



FIGURE 13.60 
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>< Sau3AI 
>< Ndell 
>< Mbol 
>< DpnII 
>< Mbol I>< Dpnl 

>< XmnI >< BspAI> < Eco57I >< Tru9I 

>< Asp700ix Bspl43l >< Msel 

GAAGGAGTTC CTGATCTTCT GGTCTAAACG AACTAACTAT TAT T ATT ATT CTGTTTGGAA CTTTAACATT 
26330 26340 26350 26360 26370 26380 26390 

>< ScrFI 
>< Mval 
>< EcoRII 

>< Ecll36I 
>< DsaV NlalV X 
x Rsal >< BstOI 

X Mnll >< Tru9I >< BstNI Rmal >< 

X Csp6I >< Msel >< BsiLI Mael X 

> < Nlalll X Afal > < Alul X ApylBscBI x 

GCTTATCATG GCAGACAACG G TACTATT AC CGTTGAGGAG CTTAAACAAC TCCTGGAACA AT GG AACCTA 
26400 26410 26420 26430 26440 26450 26460 

X ScrFI 
x Rmal 

X Mval 
X Mael 

x EcoRII 

X Ecll36I 
X DsaV 

x BstOI i" 
X BstNI *" 
X BsiLI 

>< Apyl x Maelll 

GTAATAGGTT TCCTATTCCT AGCCTGGATT ATGTTACTAC AATTTGCCTA TTCTAATCGG AACAGGTTTT 
26470 26480 26490 26500 26510 26520 26530 

x Pall 
X Msel 
x Mnll >< Maelll 
x Haelll 
>< Eael 
X BsuRI 
>< BsrI 

X Rsal X BspWI 

X Csp6I >< Hindlll • >< BshI 

X Afal >< Alul >< Ball X Bbvl Fnu4HI X 

TGTACATAAT AAAGCTTGTT TTCCTCTGGC TCTTGTGGCC AGTAACACTT GCTTGTTTTG TGCTTGCTGC 
26540 26550 26560 ■ ' 26570 26580 - 26590 - 26600 

X Vspl 
X Tru9l 

>< Msel >< HphI 

>< Sfcl X Asnl X BsrI 

x AccI >< Aseix Maellix Acil 
TGTCTACAGA ATTAATTGGG TGACTGGCGG GATTGCGATT GCAATGGCTT GTATTGTAGG CTTGATGTGG 
26610 26620 26630 26640 26650 26660 26670 

X Espl 

X Eco57I 
>< Ddel 

x Celll >< Rsal 

>< Bpull02I >< Csp6I 

FIGURE 13. 61 
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B ff ai T >< AfaI 

>< Alul >K AciI 

CTTAGCTACT TCGTTGCTTC CTTCAGGCTG TTTGCTCGTA CCCGCTCAAT GTGGTCATTC AACcSgAAa" 
26680 26690 26700 26710 26720 26730 26740 

>< ScrFI 

>< Neil 
>< Mspl 
>< Hpall 
>< HapII 
>< DsaVX Mnll 

>< BslI 

>< BsiYI 

>< BsaJI >< Muni > < xcml 

CAAACATTCT TCTCAATGTG CCTCTCCG^ 

26750 26760 26770 26780 26790 26800 26810 

Tru9I >< 

SinI > 
Sau96I > 
PpuMI > 
NspIV > 
Msel >< 

X Sau3AT >K Mae m 

>< Spt? > < Rmal >< Ha ell 

>< ST!" >K Pal1 > < Mael Eco0109I > 

>< tLr >< MSPI HinPlIEco4 7I > 

X Donr? >K HpaI1 ><: St y X>< Hin61 D * a " > 

>< d™t >K Hap11 ><C Ec °T14I C £rl3I > 

X BsS? ><: HaSl11 >< Ecol3 °I>< Bspl43II 

X BsolOT >K GdiI1 BSST11 BsiZI > 

X BsiS ><: EaeI BsaJI Bme 18I > 

X BcS ^ M TTT >< BSURI >K BlnI ><C " haI AVa " > 

>< Sau3AI 
>< Ndell 
>< Mbol 
>< DpnII 
>< Dpnl 
>< PssI >< BspMI 

X N SP H^ >K BSPAI >< XmnI 

GACCTGCCAA "^Sg^SE „| figfijj SJKgjj'S&Se 

>< Tfil 
>< Hinfl 
>< Bbvl 

>< Bbv * >< Fnu4HI >< AciI > < TrU91 

GTGTAGGCAC TGATTCAGGT „„ ACAACCGC.A CC_ AACTATAAAT TAAATACAGA 

>< SSx >< i',- 1 

x CfrlOI ><: MaeI>< B j Hindu >< 

X Bcgr/a >< SspI ^ AfaI ^ Maem Handll >< 



FIGURE 13.62 
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CCACGCCGGT AGCAACGACA ATATTGCTTT GCTAGTACAG TAAGTGACAA CAGATGTTTC ATCTTGTTGA 
27030 27040 27050 27060 27070 27080 27090 

>< ScrFI 

>< Mval 
>< Maelll 
>< EcoRII 

>< EC1136I 
>< DsaV 

>< BstOI 

>< BstNI 

>< BsiLI >< xfil 

>< Apyl >< Mnll Hinfl X 

CTTCCAGGTT ACAATAGCAG AGATATTGAT TATCATTATG AGGACTTTCA GGATTGCTAT TTGGAATCTT 
27100 27110 27120 27130 27140 27150 27160 

>< BsmAI >< Tru9I > < Mnll 

>< Maell x Alw26I >< Msel X Ddel x MboII 

GACGTTATAA TAAGTTCAAT AGTGAGACAA TTATTTAAGC CTCTAACTAA GAAGAATTAT TCGGAGTTAG 
27170 27180 27190 27200 27210 27220 27230 

X Ksp632I 
X MboII >< Earl 

X MboII >< NlaIIIEamll04I x 

ATGATGAAGA ACCTATGGAG TTAGATTATC CATAAAACGA ACATGAAAAT TATTCTCTTC CTGACATTGA 
27240 27250 27260 27270 27280 27290 27300 

> < Rsal >< Rsal 
>< Csp6I >< Csp6I 
> < Alul x Mnll > < Afal X Afal 

TTGTATTTAC ATCTTGCGAG CTATATCACT ATCAGGAGTG TGTTAGAGGT ACGACTGTAC TACTAAAAGA 
27310 27320 27330 27340 27350 27360 27370 

>< Mnll x HphI X HphI >< Mnll 

ACCTTGCCCA TCAGGAACAT ACGAGGGCAA TTCACCATTT CACCCTCTTG CTGACAATAA AT TT GCACT A 
27380 27390 27400 27410 27420 27430 27440 



> 
> 
> 



X TthHB8I 
X TaqI 
X Rsal 
X Csp6I 

>< Rmal >< Bbvl 

>< Mael >< Afal 

ACTTGCACTA GCACACACTT TGCTTTTGCT TGTGCTGACG GTACTCGACA TACCTATCAG CTGCGTGCAA 
27450 27460" " 27470 27480 27490 27500 27510 



Sau3AI > 

< PvuII 

< PspSI 

< NspBII 
Ndell > 

Mbol > 
>< Fnu4HI 
DpnII > 
BspAI > 

< Alul 



X HphI 
x Dpnl 



>< Mnll 

FIGURE 13. 63 



>< SstI 
x Sdul 
>< Sad 
>< NspII 
x HgiAI 
X Eco24I 
< Ecll36II 

>< BspWI 
>< Bspl286I 
>< Bmyl. 
X Banll 
x Alw21I 
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>< Bsp143I >< Mnll > < Alul Bbvl >< 

GATCAGTTTC ACCAAAACTT TTCATCAGAC AAGAGGAGGT TCAACAAGAG CTCTACTCGC CACTTTTTCT 
27520 27530 27540 27550 27560 27570 27580 

SstI >< 
. Sdul >< 
Sad >< 
NspII >< 
HgiAI >< 
Eco24I >< 
EC1136II >< 
Bspl286I >< 
Bmyl >< 

X Rmal X Tru9I Banll >< 

>< Mael X Msel >< Tru9I Alw21I X 

X Fnu4HI >< HphI >< Msel Alul X 

CATTGTTGCT GCTCTAGTAT TTTTAATACT TTGCTTCACC ATTAAGAGAA AGACAGAATG AATGAGCTCA 
27590 27600 27610 27620 27630 27640 27650 

x Tru91 >< Z™* 1 

>< Msel ><C MseI 

CTTTAATTGA CTTCTATTTG TGCTTTTTAG CCTTTCTGCT ATTCCTTGTT TTAATAATGC TTATTATATT 
27660 27670 27680 27690 27700 27710 27720 

>< XhoTI 
>< Xbal 

> < ScrFI 

>< Sau3AI 

>< Rmal 
>< Ndell 

> < Mval 

>< Mfll 
>< Mbol 
>< EcoRIIX Mael 

> < Ecll36I 

>< DpnII 

>< Dpnl 
>< BstYI 

> < BstOI 

> < BstNI 

>< TthHB8I >< BspAI > < Rsal 

X DsaVX Bspl4 3I >< Mbol I 

> < BsiLI >< Csp6I 

X TaqI > < Apyl > < Alwl > < Afal >< Nlalll 

TTGGTTTTCA CTCGAAATCC AGGATCTAGA AGAACCTTGT ACCAAAGTCT AAACGAACAT GAAACTTCTC 
27730 27740 27750 27760 27770 27780 27790 

>< HinPlI 
>< Hin6I 
>< Hhal 
>< Rsal >< Haell 
X Sfcl >< Eco47III 

X Csp6I>< Cfol SfaNI X 
>< Ndel >< Afal >< Bspl43II 

ATTGTTTTGA CTTGTATTTC TCTATGCAGT TGCATATGCA CTGTAGTACA GCGCTGTGCA TCTAATAAAC 
27800 27810 27820 27830 27840 27850 27860 

X XhoII 
>< Sau3AI 

X Ndell • ' 

> < Mnll 

X Mfll 

FIGURE 13 64 
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>< Mbol 
X DpnII 

>< Dpnl >< Rsal 

>< BstYI X MboII 
>< Nlalllx BspAI >< Csp6I >< Rmal 

>< Alwl >< Bspl4 3I >< Afal >< Mael 
CTCATGTGCT TGAAGATCCT TGTAAGGTAC AACACTAGGG GTAATACTTA TAGCACTGCT TGGCTTTGTG 
27870 27880 27890 27900 27910 27920 27930 



>< Sdul 

>< Rmal 
>< NspII 

>< Mael 
>< HgiAI 

>< Bspl286I >< Nspl 

>< Bmyl >< NspHI 

>< Alw21I >< Nlalll >< Maelll 

CTCTAGGAAA GGTTTTACCT TTTCATAGAT GGCACACTAT GGTTCAAACA TGCACACCTA ATGTTACTAT 



27940 



27950 



27960 



27970 



27980 



27990 



28000 



> 
> 
> 

> 
> 
> 

>< Alwl 



> < XhoII 

> < Sau3AI 

>< 
>< 

< Ndell 

< MfllX 

< DpnII 
X Bspl43I 

< BstYI > < 



> < Van91I 
PvuII 
PspSI 

> < PflMI 
NspBII 

>< HinPlI 
X Hin6I 
BslI >< Hhal 

< BspAI > < BsiYIX Cfol 

< Mbolx Alulx BspWI X 
>< Dpnl > < AccB7I 



X Rmal 
X Mael 

BspWI 

X Alul 



>< Rsal 

x NlalV 

>< Kpnl X 
X Eco64I 
X Csp6I>< HphI 

X BscBI X 
>< BanI >< BspHI 
X Asp718 x 

>< Afal x 
x AccBlI x 



Nlalll 
x Maelll 



Eco0651 



Eco91I 

BstPI 

BstEII 



>< Acc65I 



>< Bbvl 



CAACTGTCAA GATCCAGCTG GTGGTGCGCT TATAGCTAGG TGTTGGTACC TTCATGAAGG TCACCAAACT' 



28010 



28020 



28030 



28040 



28050 



28060 



28070 



X Fnu4HI 
X Esp3I 
X BsmAI 
X Alw26I 



x Rsal 
>< Maell 
>< Csp6I 
>< BsmBI 
>< Afal 



>< Tru9I 
>< Msel 
>< Dral 



X Tru9I 
>< Msel 



X SinI 
X Sau96I 
X NspIV 
NspHI I X 
NlalV >< 

X Eco47I 
>< Cfrl3I 
>< BsiZI 
BscBI X 

>< Bmel8I 
X Avail 
X Asul 



GCTGCATTTA GAGACGTAC.T TGTT-GTTTTA AATAAACGAA CAAATTAAAA TGTCTGATAA TGGACCCCAA 



28080 



28090 



28100 



28110 



28120 



28130 



28140 



>< Maell 



>< Sdul 
>< NspII 
>< Bspl286I 
X Bmyl 

X Acil 



X SinI 
>< Sau96I 
>< NspIV 
X NspHII 
>< NlalV 
>< Eco4 7I 
>< Cfrl3I 
X BsiZI 

>< BscBI 
X Bmel8I 
X Avail X Tfil 
X Asul X Hinfl 



X Mnll 



FIGURE 13.65 
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TCAAACCAAC GTAGTGCCCC CCGCATTACA TTTGGTGGAC CCACAGATTC AACTGACAAT AACCAGAATG 
28150 28160 28170 28180 28190 28200 28210 

>< HinPlI >< Styl 
>< Haell 

> < Pall >< Hin6I >< EcoT14I 

> < Haelll >< HhalX Ecol30I 

>< BspWI >< BssTlI 

> < BsuRI >< Bspl43II 

>< Hgal> < BshI >< Cfolx BsaJI >< Hgal 

GAGGACGCAA TGGGGCAAGG CCAAAACAGC GCCGACCCCA AGGTTTACCC AATAATACTG CGTCTTGGTT 
28220 28230 28240 28250 28260 28270 28280 

>< TthHB8I 

> < ScrFI 
>< Pall 

>< PaeR7I 
>< NspIII 

> < Mval 
>< Haelll 
>< EcoRII 

>< Eco8 8l 

>< Xhol > < Ecll36I 
>< DsaV 
>< BsuRI 
>< Slal > < BstOI 
>< MnllX Taql> < BstNI 
>< Ccrl > < BsiLI 
X Hinfl x BshI 

X Tfilx BcolX BsaJI 
>< Mnll >< Ddel X Aval > < Apyl 

>< Alul X Ddel > < Nlalll x Bfrl x Ama87I x Mnll 
CACAGCTCTC ACTCAGCATG GCAAGGAGGA ACTTAGATTC CCTCGAGGCC AGGGCGTTCC AATCAACACC 
28290 28300 28310 28320 28330 28340 28350 

x SinI 
>< Sau96I 
>< NspIV 

>< NspHII 
>< Eco47I 
X Cfrl3I 
>< BsiZI 
X Bmel8I 
X Avail 
X Asul 



> 
> 
> 



Ksp632I 
Eamll04I 

- Earl > < AluIX MboII >< Ma*=>TTT 

AATAGTGGTC CAGATGACCA AATTGGCTAC TACCGAAGAG CTACCCGACG AGTTCGTGGT GGtSSSa 
28360 28370 28380 28390 28400 28410 28420 

>< SstI 
>< Sdul 
x SacI 
>< NspII 
X HgiAI 
X Espl 
X Eco24I 
>< Ecll36II 
>< Ddel 
>< Celll 

X Bspl286I 
>< Bpull02I 
X Bmyl 

>< Banll x Rsal 



>< Styl 
>< Rmal 
X Mael 



>< Sau96l 

x Pall 
>< NspIV 
>< Haelll 
X EcoT14I X Cfrl3l 
X Ecol30I X BsuRI 
>< BssTlI > < BsrI 
>< BsaJI >< BsiZI 



FIGURE 13. 66 
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>< Alw21I >< Csp6I >< Blnl >< BshlX Hindlll 

>< HphI X Alul >< Afal >< Avrll >< Asul >< Alul 

AAATGAAAGA GCTCAGCCCC AGATGGTACT TCTATTACCT AGGAACTGGC CCAGAAGCTT CACTTCCCTA 
28430 28440 28450 28460 28470 28480 28490 



>< HinPlI 
>< Hin6I 
>< Hhal 
>< Haell 

>< Cfol > < Mnll >< NlalV 

>< Bspl43II >< SfaNI >< Ddel >< BscBI 

CGGCGCTAAC AAAGAAGGCA TCGTATGGGT TGCAACTGAG GGAGCCTTGA ATACACCCAA AGACCACATT 
28500 28510 28520 28530 28540 28550 28560 

>< NlalV 
>< Eco64I 

>< BscBI 
>< BanI 

>< Acil 

>< AccBlI X Bbvl X Fnu4HI >< Mnll 

GGCACCCGCA ATCCTAATAA CAATGCTGCC ACCGTGCTAC AACTTCCTCA AGGAACAACA TTGCCAAAAG 
28570 28580 28590 28600 28610 28620 28630 



X Thai 
x Mnll 
X Maell >< Mvnl 
X Mnll BstUI X 

X Fnu4HI x Ksp632I BspSOI X 

X BspWI X Earl X BsaAIX Acil 

X Mnll X Mnll X AcilX MboII X Eamll04I AccII X 

GCTTCTACGC AGAGGGAAGC AGAGGCGGCA GTCAAGCCTC TTCTCGCTCC TCATCACGTA GTCGCGGTAA 
28640 28650 28660 28670 28680 28690 28700. 

X ScrFI V 
X Mval 

X EcoRII X TthHB8I 

X Ecll36I x Rmal 

x DsaVX Fnu4HI >< Nhel 

X BstOI >< Mnll 

>< BstNI >< Mael 

X BsiLI m > < BspWI 

X Apyl X Bbvl X TaqI X Acil 

TTCAAGAAAT TCAACTCCTG GCAG C AG TAG GGGAAATTCT CCTGCTCGAA TGGCTAGCGG AGGTGGTGAA 

28710 28720 28730 28740 28750 28760 28770 

> < Thai 

> < Mvnl 

X HphI x Mnll - - .... 

> < HinPlI 

> < Hin6I 

>< Hhal 

> < BstUI x Rmal Pall X 

> < BspSOI X Mael Haelll X 
X Bbvl X Cfoix Fnu4HI BsuRI X 

> < Accllx BspWI X Alul BshI X 
ACTGCCCTCG CGCTATTGCT GCTAGACAGA TTGAACCAGC TTGAGAGCAA AGTTTCTGGT AAAGGCCAAC 

28780 28790 28800 28810 28820 28830 28840 



Rsal >< 

> < Palix Maelll , >< Mnll 

> < Haelll >< Fnu4HI Maell >< 

> < BsuRI x Ddel >< Ddel Csp6I X 

FIGURE 13.67 
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> < BshI > < Bbvl >< Mnll >< BspWI >< SfaNI jf aT 

iJm ?SSi CCAAA SpS actaagaaat ctgctgctga ggcatctaaa aagcctcgcc aaaScg?ac 

28850 28860 28870 28880 28890 28900 28910 

>< Tthllll 
>< SinI 
>< Sau96I 
>< NspIV 
>< NspHII 
> < Maell 

>< Eco4 7I 
>< Cfrl3I 
>< BsmBI 
>< BsiZI 
>< Bmel8I 
>< Esp3I >< Avail 

>< BsmAI >< Asul 

>< Alw26I> < Aspl 

ATTTGGGAGA CGTGGTCCAG AACAAACCCA^ AGGAAAT T TC 
28950 28960 28970 28980 



>< Rsal 

>< Maelll 
>< Maell 
>< Csp6I 
>< Afal 

TGCCACAAAA CAGTACAACG TCACTCAAGC 
28920 28930 28940 

>< SinI 
>< Sau96I 
>< NspIV 

>< NspHII 

X NlalV 
>< Eco47I 
X Cfrl3I 
>< BsiZI 

X BscBI 
>< Bmel8I 
x Avail 
>< Asul 

GGGGACCAAG ACCTAATCAG ACAAGGAACT 
28990 29000 29010 

>< BsmI 

>< BscCI X Mnll X Maelll 
GTGCCTCTGC ATTCTTTGGA ATGTCACGCA 



X Styl 
>< EcoT14I 
x Ecol30I 
X BssTlI 
X BsaJI 



29060 



29070 



29080 



>< Pall 
>< Haelll 
>< Gdill 

>< Fnu4HI 
X Eael 
X BsuRI 

>< BshI BspWI > 

>< Acil >< BspWI 

GATTACAAAC ATTGGCCGCA AATTGCACAA TTTGCTCCAA 
29020 29030 29040 29050 

>< Nialll 

>< Maelll >< Nialll 

TTGGCATGGA AGTCACACCT TCGGGAACAT GGCTGACTTA 
29090 29100 29110 29120 



X Tru9l 
>< NlalV 
>< Nialll 

>< Msel 



X XhoII 
>< Sau3AI 
X Ndell 
>< Mfll 
x Mbol 

>< Fokl 
>< DpnII 

> < Dpnl 
X BstYI 
X BspAI 



>< Tthllll 

>< BscBI X BstXIX Alwl> < i Bspl43I >< As^I^ 11 p_ A M T ^ 

TCATGGAGCC ATTAAATTGG ATGACAAAGA TCCACAATTC AAAGACAACG TCATACTGCT GAACAAGCAC 
29130 29140 29150 29160 29170 29180 29190 

Espl X 
Ddel >< 
Cell I >< 

>< Hgal Bpull02I >< 

MT ~ ACAAAACATT CCCACCAACA GAGCCTAAAA AGGACAAAAA GAAAAAGACT GA^AGCTC 

<£»^u 29230 29240 29250 29260 

FIGURE 13.68 
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>< Plel 

>< Fnu4HI >< MboII 

>< BspWI >< MboII X Ksp632I X Gsul 

X BsmAI >< Maelll >< Earlx Fnu4HI 

>< Alw26I >< Hinfl >< Eamll04IX Bpml 

>< Acil X Fnu4HI >< Bbvl >< Acil >< Nlalll 

AGCCTTTGCC GCAGAGACAA AAGAAGCAGC CCACTGTGAC TCTTCTTCCT GCGGCTGACA TGGATGATTT 

29270 29280 29290 29300 29310 29320 29330 

>< Nlalll >< Hinfl Nlalll >< 

>< Fokl >< Alul >< TfilX Ddel >< BspHI 

CTCCAGACAA CTTCAAAATT CCATGAGTGG AGCTTCTGCT GATTCAACTC AGGCATAAAC ACTCATGATG 
29340 29350 29360 29370 29380 29390 29400 

>< Maell >< AccI 

ACCACACAAG GCAGATGGGC TATGTAAACG TTTTCGCAAT TCCGTTTACG ATACATAGTC TACTCTTGTG 
29410 29420 29430 29440 29450 29460 29470 

>< Tru9I 
>< Tru9I 

>< Msel 
>< Msel 

>< XmnI >< Hpal 

>< EcoRix Maelll >< Hindll Tru9I >< 

>< Asp700I x Bsgl X Hindi Msel >< 

CAGAATGAAT TCTCGTAACT AAACAGCACA AGTAGGTTTA GTTAACTTTA ATCTCACATA GCAATCTTTA 
29480 29490 29500 29510 29520 29530 29540 

Xorll > 
TthHB8I > 
TaqI > 
Sau3AI X 
Rsal X 
>< ThalPvuI > 
Ndell >< 
X Mnll 
X MvnIMcrl > 
Mbol X 
DpnII x 
Dpnl X 
Csp6I X 
X BstUI 
x Haelll BspCI > 
BspAI >< 
X TthHB8I >< Bsp50l 

X Pall Bspl43I X 

.... .... >< BsuRI BsiEI > 

x BshlAfal X 

>< Mnll >< TaqI X Acil 

X Maelll X Mnll >< AccII 

ATCAATGTGT AACATTAGGG AGGACTTGAA AGAGCCACCA CATTTTCATC GAGGCCACGC GGAGTACGAT 
29550 29560 29570 29580 29590 29600 29610 











>< 


Sdul 














X 


NspII 

X MboII 


X 


Vspl 








x Ksp632I 


X 


Eco24I 


X 


Tru9I 


x Rsal 


>< 


Rmal 


X Fnu4HI 


X 


Bspl286I 


X 


Msel 


X Csp6I 


X 


Mael 


X Earl 


X 


Bmyl 


X 


Asnl 


x Afal 


>< Bbvl 




> < AluIX Eamll04I 


X 


Banll 


X 


Asel 
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CGAGGGTACA GTGAATAATG CTAGGGAGAG CTGCCTATAT GGAAGAGCCC TAATGTGTAA AATTAATTTT 
29620 29630 29640 29650 29660 29670 29680 

>< Tru9I >< Ddel 
>< Msel >< Bfrl 
>< Nlalll > < Alul 
AGTAGTGCTA TCCCCATGTG ATTTTAATAG CTTCTTAGGA GAATGACAAA AAAAAAAAAA AAAAAA 
29690 29700 29710 29720 29730 29740 



FIGURE 13. 70 



S226CAS108.ST25 
SEQUENCE LISTING 

<110> INSTITUT PASTEUR 

CENTRE NATIONAL DE LA RECHERCHE SCIENTIFIQUE 

<120> Nouvelle souche de coronavirus associe au SRAS et ses applications 

<130> F226CAS108 

<160> 75 

<170> Patentln version 3.1 

<210> 1 

<211> 29746 

<212> DNA 

<213> CORONAVIRUS 



<400> 1 
atattaggtt 


tttacctacc 


caggaaaagc 


caaccaacct 


cgatctxttg 


tagatctgtt 


60 


ctctaaacga 


actttaaaat 


ctgtgtagct 


gtcgctcggc 


tgcatgccta 


gtgcacctac 


120 


gcagtataaa 


caataataaa 


ttttactgtc 


gttgacaaga 


aacgagtaac 


tcgtccctct 


180 


tctgcagact 


gcttacggtt 


tcgtccgtgt 


tgcagtcgat 


catcagcata 


cctaggtttc 


240 


gtccgggtgt 


gaccgaaagg 


taagatggag 


agccttgttc 


ttggtgtcaa 


cgagaaaaca 


300 


cacgtccaac 


tcagtttgcc 


tgtccttcag 


gttagagacg 


tgctagtgcg 


tggcttcggg 


360 


gactctgtgg 


aagaggccct 


atcggaggca 


cgtgaacacc 


tcaaaaatgg 


cacttgtggt 


420 


ctagtagagc 


tggaaaaagg 


cgtactgccc 


cagcttgaac 


agccctatgt 


gttcattaaa 


480 


cgttctgatg 


ccttaagcac 


caatcacggc 


cacaaggtcg 


ttgagctggt 


tgcagaaatg 


540 


gacggcattc 


agtacggtcg 


tagcggtata 


acactgggag 


tactcgtgcc 


acatgtgggc 


600 


gaaaccccaa 


ttgcataccg 


caatgttctt 


cttcgtaaga 


acggtaataa 


gggagccggt 


660 


ggtcatagct 


atggcatcga 


tctaaagtct 


tatgacttag 


gtgacgagct 


tggcactgat 


720 


cccattgaag 


attatgaaca 


aaactggaac 


actaagcatg 


gcagtggtgc 


actccgtgaa 


780 


ctcactcgtg 


agctcaatgg 


aggtgcagtc 


actcgctatg 


tcgacaacaa 


tttctgtggc 


840 


ccagatgggt 


accctcttga 


ttgcatcaaa 


gattttctcg 


cacgcgcggg 


caagtcaatg 


900 


tgcactcttt 


ccgaacaact 


tgattacatc 


gagtcgaaga 
page 1 


gaggtgtcta 


ctgctgccgt 


960 
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aaccatraaac ataaaatTtqc 


ctggttcact 


gagcgctctg 


ataagagcta 


cgagcaccag 


1020 


acaccctlica aaatvtaaaaq 


tgccaagaaa 


tttgacactt 


tcaaagggga 


atgcccaaag 


1080 


t*i"t'ai"at:Ttc ctctLaactc 


aaaagtcaaa 


gtcattcaac 


cacgtgttga 


aaagaaaaag 


1140 


aLLyayyyi-v- ca u y rJy y i? 


tatacgctct gtgtaccctg 


ttgcatctcc 


acaggagtgt 


1200 


aaraatAtnr ar*tt*ot"Ci:ac 


cttgatgaaa tgtaatcatt 


gcgatgaagt 


ttcatggcag 


1260 


arnt*nm^rt tlrtciaaaac 

dLy LyLyaL U LLLLyaaayv. 


cacttgtgaa 


cattgtggca 


ctgaaaattt 


agttattgaa 


1320 


yyaCLLaCLd La Ly L.yyy La 


cctacctact 


aatgctgtag 


tgaaaatrgcc 


atgtcctgcc 


1380 


L^LCaagaLL LayayaLLyy 


acctgagcat agtgttgcag 


attatcacaa 


ccactcaaac 


1440 




gggaggtagg actagatgtt 


ttaaaaacta 

*• ^» yy^y 5? 


tqtqtttqcc 


1500 


LaLy L LLjyLL yL LaLaaLaa 


gcgtgcctac tgggttcctc 


atactaatac 


tgatattggc 


1560 


LLdgyLLd La LLyyLdLLdL 


tggtgacaat gtggagacct 


tiaaataaqqa 


tctccttgag 


1620 


atartnantr nt~ri yaffil" fit" 
aLaLLyay ll y uyaa^y uy i_ 


taacattaac 


attgttggcg 


attttcattt 


gaatgaagag 


1680 


LjLLyLLaLLa uv.LLyyv.aLV. 


tttctctgct tctacaagtg 


cctttattga 


cactataaag 


1740 


an-t-r"t-*t-fi» - f*t" ^ faant' ft" t"1~ 
ayLLLLyaLL av.flayun.Li, 


caaaaccatt gttgagtcct 


gcggtaacta 


taaagttacc 


1800 


ctdyyy dacty L LL_y Laaaayy 


tgcttggaac 


attggacaac 


agagatcagt 


tttaacacca 


1860 


LLyLy LyyLL lllllllolo 


ggctgctggt 


gttatcagat 


caatttttgc 


gcgcacactt 


1920 


ydLyCayLaa dLLdLLLddL 


tcctgatttg 


caaagagcag 


cttrtcaccat: 

L_ L* «4 X_ LA V— . ^— L* L* 


acttaataqt: 


1980 


atttCLyadC ayLLaLLdCg 


tcttgtcgac 


gccatggttt 


a 1" a cT 1* ca q a 

a l ex. v. i_ i— V—C* y c* 


cctact cacc 


2040 


aacagLyLca LLaLiai.ggc 


atatgtaact 


ggtggtcttg 


Lou d ci v_ ci y civ, 


"ttctcaataa 


2100 


LLgiiCLaaLC LLLTgggcac 


tactgttgaa 


aaactcaggc 




at*aaatil!aaa 


2160 


gcgaaacLLa giigcaggagL 


tgaatttctc 


aaggatgctt 


nnnanattrt 

yyy a y a llll 


caaatrttctc 


2220 


aLTacaggTg LLLiLgaLaL 


cgtcaagggt 


caaatacagg 


ttarttcaoa 


Taacatcaaa 

LUU VU L vUU vj 


2280 


y d L Ly Ly Lad daLtjLLLLaL 


tgatgttgtt 


aacaaggcac 


tcaaaatraHa 


cattrgaticaa 


2340 


yLLdLLdLLy LLyyLyLdda 


gttgcgatca 


ctcaacttag 


at:aaaat:ctt 


catcgctcaa 


2400 


dyLddyyydL l l LdLLy ll» 


gtgtatacgt 


ggcaaggagc 


aactacaact: 

LA V« L* V— VA. LA V- 


actxattgect: 


2460 


LL LddyyLdL Laadayaay L 


aacctttctt 


gaaggtgatt 


cacataacac 


agtacttacc 


2520 


ll Lydyydyy LLLjLLLLLaa 


gaacggtgaa 


ctcgaagcac 


tcaaaacacc 


cqttaataqc 


2580 


ttraraaatn nanrtatrnt 
LLLdLdddLy yaV)LLaLV.y L 


tggcacacca 


gtctgtgtaa 


ataacctcal: 


qctcttaqaq 


2640 


attaaggaca aagaacaata 


ctgcgcattg 


tctcctggtt 


tactggctac 


aaacaatgtc 


2700 


tttcgcttaa aagggggtgc 


accaattaaa 


ggtgtaacct 


ttggagaaga 


tactgtttgg 


2760 


gaagttcaag gttacaagaa 


tgtgagaatc acatttgagc 


ttgatgaacg 


tgttgacaaa 


2820 


gtgcttaatg aaaagtgctc 


tgtctacact 


gttgaatccg 


gtaccgaagt 


tactgagttt 


2880 


gcatgtgttg tagcagaggc 


tgttgtgaag 


actttacaac 


cagtttctga 


tctccttacc 


2940 


aacatgggta ttgatcttga 


tgagtggagt 


gtagctacat 
Page 2 


tctacttatt 


tgatgatget 


3000 
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ggtgaagaaa acttttcatc acgtatgtat tgttcctttt accctccaga tgaggaagaa 3060 

gaggacgatg cagagtgtga ggaagaagaa attgatgaaa cctgtgaaca tgagtacggt 3120 

acagaggatg attatcaagg tctccctctg gaatttggtg cctcagctga aacagttcga 3180 

gttgaggaag aagaagagga agactggctg gatgatacta ctgagcaatc agagattgag 3240 

ccagaaccag aacctacacc tgaagaacca gttaatcagt ttactggtta tttaaaactt 3300 

actgacaatg ttgccattaa atgtgttgac atcgttaagg aggcacaaag tgctaatcct 3360 

atggtgattg taaatgctgc taacatacac ctgaaacatg gtggtggtgt agcaggtgca 3420 

ctcaacaagg caaccaatgg tgccatgcaa aaggagagtg atgattacat taagctaaat 3480 

ggccctctta cagtaggagg gtcttgtttg ctttctggac ataatcttgc taagaagtgt 3540 

ctgcatgttg ttggacctaa cctaaatgca ggtgaggaca tccagcttct taaggcagca 3600 

tatgaaaatt tcaattcaca ggacatctta cttgcaccat tgttgtcagc aggcatattt 3660 

ggtgctaaac cacttcagtc tttacaagtg tgcgtgcaga cggttcgtac acaggtttat 3720 

attgcagtca atgacaaagc tctttatgag caggttgtca tggattatct tgataacctg 3780 

aagcctagag tggaagcacc taaacaagag gagccaccaa acacagaaga ttccaaaact 3840 

gaggagaaat ctgtcgtaca gaagcctgtc gatgtgaagc caaaaattaa ggcctgcatt 3900 

gatgaggtta ccacaacact ggaagaaact aagtttctta ccaataagtt actcttgttt 3960 

gctgatatca atggtaagct ttaccatgat tctcagaaca tgcttagagg tgaagatatg 4020 

tctttccttg agaaggatgc accttacatg gtaggtgatg ttatcactag tggtgatatc 4080 

acttgtgttg taataccctc caaaaaggct ggtggcacta ctgagatgct ctcaagagct 4140 

ttgaagaaag tgccagttga tgagtatata accacgtacc ctggacaagg atgtgctggt 4200 

tatacacttg aggaagctaa gactgctctt aagaaatgca aatctgcatt ttatgtacta 4260 

ccttcagaag cacctaatgc taaggaagag attctaggaa ctgtatcctg gaatttgaga 4320 

gaaatgcttg ctcatgctga agagacaaga aaattaatgc ctatatgcat ggatgttaga 4380 

gccataatgg caaccatcca acgtaagtat aaaggaatta aaattcaaga gggcatcgtt 4440 

gactatggtg tccgattctt cttttatact agtaaagagc ctgtagcttc tattattacg 4500 

aagctgaact ctctaaatga gccgcttgtc acaatgccaa ttggttatgt gacacatggt 4560 

tttaatcttg aagaggctgc gcgctgtatg cgttctctta aagctcctgc cgtagtgtca 4620 

gtatcatcac cagatgctgt tactacatat aatggatacc tcacttcgtc atcaaagaca 4680 

tctgaggagc actttgtaga aacagtttct ttggctggct cttacagaga ttggtcctat 4740 

tcaggacagc gtacagagtt aggtgttgaa tttcttaagc gtggtgacaa aattgtgtac 4800 

cacactctgg agagccccgt cgagtttcat cttgacggtg aggttctttc acttgacaaa 4860 

ctaaagagtc tcttatccct gcgggaggtt aagactataa aagtgttcac aactgtggac 4920 

aacactaatc tccacacaca gcttgtggat atgtctatga catatggaca gcagtttggt 4980 

ccaacatact tggatggtgc tgatgttaca aaaattaaac ctcatgtaaa tcatgagggt 5040 
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accattcagg 
gagtgggttt 
ataatgcagg 
tggtttatca 
ttctttgctt 
tcttcgactt 
attgttaatg 
aagactcaca 
agtgatgaag 
cagtcatcgt 
gacaaggctg 
aatttgagag 
aagtccaaat 
tgccaaccta 
gtttccgtta 
atggaaaaac 
ttagatggtg 
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aacacttacc 
Page 5 



ST25 

tgacgatttc 
tggcatatat 
tgttctttgg 
ttagtattgt 
ctttctacta 
gcatgatgtg 
gcatgaagag 
attggaattg 
ttgctcgtga 
atattgttga 
gtcaaaagac 
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gcgacgagtc 
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tagtgttgct 
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tatgcttaag 
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gtaacaactt ttgatgctga gtactgtaga catggtacat gcgaaaggtc agaagtaggt 9180 

atttgcctat ctaccagtgg tagatgggtt cttaataatg agcattacag agctctatca 9240 

ggagttttct gtggtgttga tgcgatgaat ctcatagcta acatctttac tcctcttgtg 9300 

caacctgtgg gtgctttaga tgtgtctgct tcagtagtgg ctggtggtat tattgccata 9360 

ttggtgactt gtgctgccta ctactttatg aaattcagac gtgtttttgg tgagtacaac 9420 

catgttgttg ctgctaatgc acttttgttt ttgatgtctt tcactatact ctgtctggta 9480 

ccagcttaca gctttctgcc gggagtctac tcagtctttt acttgtactt gacattctat 9540 

ttcaccaatg atgtttcatt cttggctcac cttcaatggt ttgccatgtt ttctcctatt 9600 

gtgccttttt ggataacagc aatctatgta ttctgtattt ctctgaagca ctgccattgg 9660 

ttctttaaca actatcttag gaaaagagtc atgtttaatg gagttacatt tagtaccttc 9720 

gaggaggctg ctttgtgtac ctttttgctc aacaaggaaa tgtacctaaa attgcgtagc 9780 

gagacactgt tgccacttac acagtataac aggtatcttg ctctatataa caagtacaag 9840 

tatttcagtg gagccttaga tactaccagc tatcgtgaag cagcttgctg ccacttagca 9900 

aaggctctaa atgactttag caactcaggt gctgatgttc tctaccaacc accacagaca 9960 

tcaatcactt ctgctgttct gcagagtggt tttaggaaaa tggcattccc gtcaggcaaa 10020 

gttgaagggt gcatggtaca agtaacctgt ggaactacaa ctcttaatgg attgtggttg 10080 

gatgacacag tatactgtcc aagacatgtc atttgcacag cagaagacat gcttaatcct 10140 

aactatgaag atctgctcat tcgcaaatcc aaccatagct ttcttgttca ggctggcaat 10200 

gttcaacttc gtgttattgg ccattctatg caaaattgtc tgcttaggct taaagttgat 10260 

acttctaacc ctaagacacc caagtataaa tttgtccgta tccaacctgg tcaaacattt 10320 

tcagttctag catgctacaa tggttcacca tctggtgttt atcagtgtgc catgagacct 10380 

aatcatacca ttaaaggttc tttccttaat ggatcatgtg gtagtgttgg ttttaacatt 10440 

gattatgatt gcgtgtcttt ctgctatatg catcatatgg agcrtccaac aggagtacac 10500 

gctggtactg acttagaagg taaattctat ggtccatttg ttgacagaca aactgcacag 10560 

gctgcaggta cagacacaac cataacatta aatgttttgg catggctgta tgctgctgtt 10620 

atcaatggtg ataggtggtt tcttaataga ttcaccacta ctttgaatga ctttaacctt 10680 

gtggcaatga agtacaacta tgaacctttg acacaagatc atgttgacat attgggacct 10740 

ctttctgctc aaacaggaat tgccgtctta gatatgtgtg ctgctttgaa agagctgctg 10800 

cagaatggta tgaatggtcg tactatcctt ggtagcacta ttttagaaga tgagtttaca 10860 

ccatttgatg ttgttagaca atgctctggt gttaccttcc aaggtaagtt caagaaaatt 10920 

gttaagggca ctcatcattg gatgctttta actttcttga catcactatt gattcttgtt 10980 

caaagtacac agtggtcact gtttttcttt gtttacgaga atgctttctt gccatttact 11040 

cttggtatta tggcaattgc tgcatgtgct atgctgcttg ttaagcataa gcacgcattc 11100 

ttgtgcttgt ttctgttacc ttctcttgca acagttgctt actttaatat ggtctacatg 11160 
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12660 


gaeaatgeae 


ttgectacta 
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12960 
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catccaaatc ctaaaggatt ctgtgacttg aaaggtaagt acgtccaaat acctaccact 13260 

tgtgctaatg acccagtggg ttttacactt agaaacacag tctgtaccgt ctgcggaatg 13320 

tggaaaggtt atggctgtag ttgtgaccaa ctccgcgaac ccttgatgca gtctgcggat 13380 

gcatcaacgt ttttaaacgg gtttgcggtg taagtgcagc ccgtcttaca ccgtgcggca 13440 

caggcactag tactgatgtc gtctacaggg cttttgatat ttacaacgaa aaagttgctg 13500 

gttttgcaaa gttcctaaaa actaattgct gtcgcttcca ggagaaggat gaggaaggca 13560 

atttattaga ctcttacttt gtagttaaga ggcatactat gtctaactac caacatgaag 13620 

agactattta taacttggtt aaagattgtc cagcggttgc tgtccatgac tttttcaagt 13680 

ttagagtaga tggtgacatg gtaccacata tatcacgtca gcgtctaact aaatacacaa 13740 

tggctgattt agtctatgct ctacgtcatt ttgatgaggg taattgtgat acattaaaag 13800 

aaatactcgt cacatacaat tgctgtgatg atgattattt caataagaag gattggtatg 13860 

acttcgtaga gaatcctgac atcttacgcg tatatgctaa cttaggtgag cgtgtacgcc 13920 

aatcattatt aaagactgta caattctgcg atgctatgcg tgatgcaggc attgtaggcg 13980 

tactgacatt agataatcag gatcttaatg ggaactggta cgatttcggt gatttcgtac 14040 

aagtagcacc aggctgcgga gttcctattg tggattcata ttactcattg ctgatgccca 14100 

tcctcacttt gactagggca ttggctgctg agtcccatat ggatgctgat ctcgcaaaac 14160 

cacttattaa gtgggatttg ctgaaatatg attttacgga agagagactt tgtctcttcg 14220 

accgttattt taaatattgg gaccagacat accatcccaa ttgtattaac tgtttggatg 14280 

ataggtgtat ccttcattgt gcaaacttta atgtgttatt ttctactgtg tttccaccta 14340 

caagttttgg accactagta agaaaaatat ttgtagatgg tgttcctttt gttgtttcaa 14400 

ctggatacca ttttcgtgag ttaggagtcg tacataatca ggatgtaaac ttacatagct 14460 

cgcgtctcag tttcaaggaa cttttagtgt atgctgctga tccagctatg catgcagctt 14520 

ctggcaattt attgctagat aaacgcacta catgcttttc agtagctgca ctaacaaaca 14580 

atgttgcttt tcaaactgtc aaacccggta attttaataa agacttttat gactttgctg 14640 

tgtctaaagg tttctttaag gaaggaagtt ctgttgaact aaaacacttc ttctttgctc 14700 

aggatggcaa cgctgctatc agtgattatg actattatcg ttataatctg ccaacaatgt 14760 

gtgatatcag acaactccta ttcgtagttg aagttgttga taaatacttt gattgttacg 14820 

atggtggctg tattaatgcc aaccaagtaa tcgttaacaa tctggataaa tcagctggtt 14880 

tcccatttaa taaatggggt aaggctagac tttattatga ctcaatgagt tatgaggatc 14940 

aagatgcact tttcgcgtat actaagcgta atgtcatccc tactataact caaatgaatc 15000 

ttaagtatgc cattagtgca aagaatagag ctcgcaccgt agctggtgtc tctatctgta 15060 

gtactatgac aaatagacag tttcatcaga aattattgaa gtcaatagcc gccactagag 15120 

gagctactgt ggtaattgga acaagcaagt tttacggtgg ctggcataat atgttaaaaa 15180 

ctgtttacag tgatgtagaa actccacacc ttatgggttg ggattatcca aaatgtgaca 15240 
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cttgtgagtc tcatggcaaa caagtagtgt cggatattga ttatgttcca ctcaaatctg 19380 

ctacgtgtat tacacgatgc aatttaggtg gtgctgtttg cagacaccat gcaaatgagt 19440 

accgacagta cttggatgca tataatatga tgatttctgc tggatttagc ctatggattt 19500 

acaaacaatt tgatacttat aacctgtgga atacatttac caggttacag agtttagaaa 19560 

atgtggctta taatgttgtt aataaaggac actttgatgg acacgccggc gaagcacctg 19620 

tttccatcat taataatgct gtttacacaa aggtagatgg tattgatgtg gagatctttg 19680 

aaaataagac aacacttcct gttaatgttg catttgagct trgggctaag cgtaacatta 19740 

aaccagtgcc agagattaag atactcaata atttgggtgt tgatatcgct gctaatactg 19800 

taatctggga ctacaaaaga gaagccccag cacatgtatc tacaataggt gtctgcacaa 19860 

tgactgacat tgccaagaaa cctactgaga gtgcttgttc ttcacttact gtcttgtttg 19920 

atggtagagt ggaaggacag gtagaccttt ttagaaacgc ccgtaatggt gttttaataa 19980 

cagaaggttc agtcaaaggt ctaacacctt caaagggacc agcacaagct agcgtcaatg 20040 

gagtcacatt aattggagaa tcagtaaaaa cacagtttaa ctactttaag aaagtagacg 20100 

gcattattca acagttgcct gaaacctact ttactcagag cagagactta gaggatttta 20160 

agcccagatc acaaatggaa actgactttc tcgagctcgc tatggatgaa ttcatacagc 20220 

gatataagct cgagggctat gccttcgaac acatcgttta tggagatttc agtcatggac 20280 

aacttggcgg tcttcattta atgataggct tagccaagcg ctcacaagat tcaccactta 20340 

aattagagga ttttatccct atggacagca cagtgaaaaa ttacttcata acagatgcgc 20400 

aaacaggttc atcaaaatgt gtgtgttctg tgattgatct tttacttgat gactttgtcg 20460 

agataataaa gtcacaagat ttgtcagtga tttcaaaagt ggtcaaggtt acaattgact 20520 

atgctgaaat ttcattcatg ctttggtgta aggatggaca tgttgaaacc ttctacccaa 20580 

aactacaagc aagtcaagcg tggcaaccag gtgttgcgat gcctaacttg tacaagatgc 20640 

aaagaatgct tcttgaaaag tgtgaccttc agaattatgg tgaaaatgct gttataccaa 20700 

aaggaataat gatgaatgtc gcaaagtata ctcaactgtg tcaatactta aatacactta 20760 

ctttagctgt accctacaac atgagagtta ttcactttgg tgctggctct gataaaggag 20820 

ttgcaccagg tacagctgtg ctcagacaat ggttgccaac tggcacacta cttgtcgatt 20880 

cagatcttaa tgacttcgtc tccgacgcag attctacttt aattggagac tgtgcaacag 20940 

tacatacggc taataaatgg gaccttatta ttagcgatal: gtatgaccct aggaccaaac 21000 

atgtgacaaa agagaatgac tctaaagaag ggtttttcac ttatctgtgt ggatttataa 21060 

agcaaaaact agccctgggt ggttctatag ctgtaaagat aacagagcat tcttggaatg 21120 

ctgaccttta caagcttatg ggccatttct catggtggac agcttttgtt acaaatgtaa 21180 

atgcatcatc atcggaagca tttttaattg gggctaacta tcttggcaag ccgaaggaac 21240 

aaattgatgg ctataccatg catgctaact acattttctg gaggaacaca aatcctatcc 21300 

agttgtcttc ctattcactc tttgacatga gcaaatttcc tcttaaatta agaggaactg 21360 
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ctgtaatgtc tcttaaggag aatcaaatca atgatatgat ttattctctt ctggaaaaag 21420 

gtaggcttat cattagagaa aacaacagag ttgtggtttc aagtgatatt cttgttaaca 21480 

actaaacgaa catgtttatt ttcttattat ttcttactct cactagtggt agtgaccttg 21540 

accggtgcac cacttttgat gatgttcaag ctcctaatta cactcaacat acttcatcta 21600 

tgaggggggt ttactatcct gatgaaattt ttagatcaga cactctttat ttaactcagg 21660 

atttatttct tccattttat tctaatgtta cagggtttca tactattaat catacgtttg 21720 

gcaaccctgt catacctttt aaggatggta tttattttgc tgccacagag aaatcaaatg 21780 

ttgtccgtgg ttgggttttt ggttctacca tgaacaacaa gtcacagtcg gtgattatta 21840 

ttaacaattc tactaatgtt gttatacgag catgtaactt tgaattgtgt gacaaccctt 21900 

tctttgctgt ttctaaaccc atgggtacac agacacatac tatgatattc gataatgcat 21960 

ttaattgcac tttcgagtac atatctgatg ccttttcgct tgatgtttca gaaaagtcag 22020 

gtaattttaa acacttacga gagtttgtgt ttaaaaataa agatgggttt ctctatgttt 22080 

ataagggcta tcaacctata gatgtagttc gtgatctacc ttctggtttt aacactttga 22140 

aacctatttt taagttgcct cttggtatta acattacaaa ttttagagcc attcttacag 22200 

ccttttcacc tgctcaagac atttggggca cgtcagctgc agcctatttt gttggctatt 22260 

taaagccaac tacatttatg ctcaagtatg atgaaaatgg tacaatcaca gatgctgttg 22320 

attgttctca aaatccactt gctgaactca aatgctctgt taagagcttt gagattgaca 22380 

aaggaattta ccagacctct aatttcaggg ttgttccctc aggagatgtt gtgagattcc 22440 

ctaatattac aaacttgtgt ccttttggag aggtttttaa tgctactaaa ttcccttctg 22500 

tctatgcatg ggagagaaaa aaaatttcta attgtgttgc tgattactct gtgctctaca 22560 

actcaacatt tttttcaacc tttaagtgct atggcgtttc tgccactaag ttgaatgatc 22620 

tttgcttctc caatgtctat gcagattctt ttgtagtcaa gggagatgat gtaagacaaa 22680 

tagcgccagg acaaactggt gttattgctg attataatrta taaattgcca gatgatttca 22740 

tgggttgtgt ccttgcttgg aatactagga acattgatgc tacttcaact ggtaattata 22800 

attataaata taggtatctt agacatggca agcttaggcc ctttgagaga gacatatcta 22860 

atgtgccttt ctcccctgat ggcaaacctt gcaccccacc tgctcttaat tgttattggc 22920 

cattaaatga ttatggtttt tacaccacta ctggcattgg ctaccaacct tacagagttg 22980 

tagtactttc ttttgaactt ttaaatgcac cggccacggt ttgtggacca aaattatcca 23040 

ctgaccttat taagaaccag tgtgtcaatt ttaattttaa tggactcact ggtactggtg 23100 

tgttaactcc ttcttcaaag agatttcaac catttcaaca atttggccgt gatgtttctg 23160 

atttcactga ttccgttcga gatcctaaaa catctgaaat attagacatt tcaccttgct 23220 

cttttggggg tgtaagtgta attacacctg gaacaaatgc ttcatctgaa gttgctgttc 23280 

tatatcaaga tgttaactgc actgatgttt ctacagcaat tcatgcagat caactcacac 23340 

cagcttggcg catatattct actggaaaca atgtattcca gactcaagca ggctgtctta 23400 
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taggagctga gcatgtcgac acttcttatg agtgcgacat tcctattgga gctggcattt 23460 

gtgctagtta ccatacagtt tctttattac gtagtactag ccaaaaatct attgtggctt 23520 

atactatgtc tttaggtgct gatagttcaa ttgcttactc taataacacc attgctatac 23580 

ctactaactt ttcaattagc attactacag aagtaatgcc tgtttctatg gctaaaacct 23640 

ccgtagattg taatatgtac atctgcggag attctactga atgtgctaat ttgcttctcc 23700 

aatatggtag cttttgcaca caactaaatc gtgcactctc aggtattgct gctgaacagg 23760 

atcgcaacac acgtgaagtg ttcgctcaag tcaaacaaat gtacaaaacc ccaactttga 23820 

aatattttgg tggttttaat ttttcacaaa tattacctga ccctctaaag ccaactaaga 23880 

ggtcttttat tgaggacttg ctctttaata aggtgacact cgctgatgct ggcttcatga 23940 

agcaatatgg cgaatgccta ggtgatatta atgctagaga tctcatttgt gcgcagaagt 24000 

tcaatggact tacagtgttg ccacctctgc tcactgatga tatgattgct gcctacactg 24060 

ctgctctagt tagtggtact gccactgctg gatggacatt tggtgctggc gctgctcttc 24120 

aaataccttt tgctatgcaa atggcatata ggttcaatgg cattggagtt acccaaaatg 24180 

ttctctatga gaaccaaaaa caaatcgcca accaatttaa caaggcgatt agtcaaattc 24240 

aagaatcact tacaacaaca tcaactgcat tgggcaagct gcaagacgtt gttaaccaga 24300 

atgctcaagc attaaacaca cttgttaaac aacttagctc taattttggt gcaatttcaa 24360 

gtgtgctaaa tgatatcctt tcgcgacttg ataaagtcga ggcggaggta caaattgaca 24420 

ggttaattac aggcagactt caaagccttc aaacctatgt aacacaacaa ctaatcaggg 24480 

ctgctgaaat cagggcttct gctaatcttg ctgctactaa aatgtctgag tgtgttcttg 24540 

gacaatcaaa aagagttgac ttttgtggaa agggctacca ccttatgtcc ttcccacaag 24600 

cagccccgca tggtgttgtc ttcctacatg tcacgtatgt gccatcccag gagaggaact 24660 

tcaccacagc gccagcaatt tgtcatgaag gcaaagcata cttccctcgt gaaggtgttt 24720 

trtgtgtttaa tggcacttct tggtttatta cacagaggaa cttcttttct ccacaaanaa 24780 

ttactacaga caatacattt gtctcaggaa attgtgatgt cgttattggc atcattaaca 24840 

acacagttta tgatcctctg caacctgagc ttgactcatt caaagaagag ctggacaagt 24900 

acttcaaaaa tcatacatca ccagatgttg atcttggcga catttcaggc attaacgctt 24960 

ctgtcgtcaa cattcaaaaa gaaattgacc gcctcaatga ggtcgctaaa aatttaaatg 25020 

aatcactcat tgaccttcaa gaattgggaa aatatgagca atatattaaa tggccttggt 25080 

atgtttggct cggcttcatt gctggactaa ttgccatcgt catggttaca atcttgcttt 25140 

gttgcatgac tagttgttgc agttgcctca agggtgcatg ctcttgtggt tcttgctgca 25200 

agtttgatga ggatgactct gagccagttc tcaagggtgt caaattacat tacacataaa 25260 

cgaacttatg gatttgttta tgagattttt tactcttgga tcaattactg cacagccagt 25320 

aaaaattgac aatgcttctc ctgcaagtac tgttcatgct acagcaacga taccgctaca 25380 

agcctcactc cctttcggat ggcttgttat tggcgttgca tttcttgctg tttttcagag 25440 

page 13 



S226CAS108.ST25 

cgctaccaaa ataattgcgc tcaataaaag atggcagcta gccctttata agggcttcca 25500 

gttcatttgc aatttactgc tgctatttgt taccatctat tcacatcttt tgcttgtcgc 25560 

tgcaggtatg gaggcgcaat ttttgtacct ctatgccttg atatattftc tacaatgcat 25620 

caacgcatgt agaattatta tgagatgttg gctttgttgg aagtgcaaat ccaagaaccc 25680 

attactttat gatgccaact actttgtttg ctggcacaca cataactatg actactgtat 25740 

accatataac agtgtcacag atacaattgt cgttactgaa ggtgacggca tttcaacacc 25800 

aaaactcaaa gaagactacc aaattggtgg ttattctgag gataggcact caggtgttaa 25860 

agactatgtc gttgtacatg gctatttcac cgaagtttac taccagcttg agtctacaca 25920 

aattactaca gacactggta ttgaaaatgc tacattcttc atctttaaca agcttgttaa 25980 

agacccaccg aatgtgcaaa tacacacaat cgacggctct tcaggagttg ctaatccagc 26040 

aatggatcca atttatgatg agccgacgac gactactagc gtgcctttgt aagcacaaga 26100 

aagtgagtac gaacttatgt actcattcgt ttcggaagaa acaggtacgt taatagttaa 26160 

tagcgtactt ctttttcttg ctttcgtggt attcttgcta gtcacactag ccatccttac 26220 

tgcgcttcga ttgtgtgcgt actgctgcaa tattgttaac gtgagtttag taaaaccaac 26280 

ggtttacgtc tactcgcgtg ttaaaaatct gaactcttct gaaggagttc ctgatcttct 26340 

ggtctaaacg aactaactat tattattatt ctgtttggaa ctttaacatt gcttatcatg 26400 

gcagacaacg gtactattac cgttgaggag cttaaacaac tcctggaaca atggaaccta 26460 

gtaataggtt tcctattcct agcctggatt atgttactac aatttgccta ttctaatcgg 26520 

aacaggtttt tgtacataat aaagcttgtt ttcctctggc tcttgtggcc agtaacactt 26580 

gcttgttttg tgcttgctgc tgtctacaga attaattggg tgactggcgg gattgcgatt 26640 

gcaatggctt gtattgtagg cttgatgtgg cttagctact tcgttgcttc cttcaggctg 26700 

tttgctcgta cccgctcaat gtggtcattc aacccagaaa caaacattct tctcaatgtg 26760 

cctctccggg ggacaattgt gaccagaccg ctcatggaaa gtgaacttgt cattggtgct 26820 

gtgatcattc gtggtcactt gcgaatggcc ggacactccc tagggcgctg tgacattaag 26880 

gacctgccaa aagagatcac tgtggctaca tcacgaacgc tttcttatta caaattagga 26940 

gcgtcgcagc gtgtaggcac tgattcaggt tttgctgcat acaaccgcta ccgtattgga 27000 

aactataaat taaatacaga ccacgccggt agcaacgaca atattgcttt gctagtacag 27060 

taagtgacaa cagatgtttc atcttgttga cttccaggtt acaatagcag agatattgat 27120 

tatcattatg aggactttca ggattgctat ttggaatctt gacgttataa taagttcaat 27180 

agtgagacaa ttatttaagc ctctaactaa gaagaattat tcggagttag atgatgaaga 27240 

acctatggag ttagattatc cataaaacga acatgaaaat tattctcttc ctgacattga 27300 

ttgtatttac atcttgcgag ctatatcact atcaggagtg tgttagaggt acgactgtac 27360 

tactaaaaga accttgccca tcaggaacat acgagggcaa ttcaccattt caccctcttg 27420 

ctgacaataa atttgcacta acttgcacta gcacacactt tgcttttgct tgtgctgacg 27480. 
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gtactcgaca tacctatcag ctgcgtgcaa gatcagtttc accaaaactt ttcatcagac 27540 

aagaggaggt tcaacaagag ctctactcgc cactttttct cattgttgct gctctagtat 27600 

ttttaatact ttgcttcacc attaagagaa agacagaatg aatgagctca ctttaattga 27660 

cttctatttg tgctttttag cctttctgct attccttgtt ttaataatgc ttattatatt 27720 

ttggttttca ctcgaaatcc aggatctaga agaaccttgt accaaagtct aaacgaacat 27780 

gaaacttctc attgttttga cttgtatttc tctatgcagt tgcatatgca ctgtagtaca 27840 

gcgctgtgca tctaataaac ctcatgtgct tgaagatcct tgtaaggtac aacactaggg 27900 

gtaatactta tagcactgct tggctttgtg ctctaggaaa ggttttacct tttcatagat 27960 

ggcacactat ggttcaaaca tgcacaccta atgttactat caactgtcaa gatccagctg 28020 

gtggtgcgct tatagctagg tgttggtacc ttcatgaagg tcaccaaact gctgcattta 28080 

gagacgtact tgttgtttta aataaacgaa caaattaaaa tgtctgataa tggaccccaa 28140 

tcaaaccaac gtagtgcccc ccgcattaca tttggtggac ccacagattc aactgacaat 28200 

aaccagaatg gaggacgcaa tggggcaagg ccaaaacagc gccgacccca aggtttaccc 28260 

aataatactg cgtcttggtt cacagctctc actcagcatg gcaaggagga acttagattc 28320 

cctcgaggcc agggcgttcc aatcaacacc aatagtggtc cagatgacca aattggctac 28380 

taccgaagag ctacccgacg agttcgtggt ggtgacggca aaatgaaaga gctcagcccc 28440 

agatggtact tctattacct aggaactggc ccagaagctt cacttcccta cggcgctaac 28500 

aaagaaggca tcgtatgggt tgcaactgag ggagccttga atacacccaa agaccacatt 28560 

ggcacccgca atcctaataa caatgctgcc accgtgctac aacttcctca aggaacaaca 28620 

ttgccaaaag gcttctacgc agagggaagc agaggcggca gtcaagcctc ttctcgctcc 28680 

tcatcacgta gtcgcggtaa ttcaagaaat tcaactcctg gcagcagtag gggaaattct 28740 

cctgctcgaa tggctagcgg aggtggtgaa actgccctcg cgctattgct gctagacaga 28800 

ttgaaccagc ttgagagcaa agtttctggt aaaggccaac aacaacaagg ccaaactgtc 28860 

actaagaaat ctgctgctga ggcatctaaa aagcctcgcc aaaaacgtac tgccacaaaa 28920 

cagtacaacg tcactcaagc atttgggaga cgtggtccag aacaaaccca aggaaatttc 28980 

ggggaccaag acctaatcag acaaggaact gattacaaac attggccgca aattgcacaa 29040 

tttgctccaa gtgcctctgc attctttgga atgtcacgca ttggcatgga agtcacacct 29100 

tcgggaacat ggctgactta tcatggagcc attaaattgg atgacaaaga tccacaattc 29160 

aaagacaacg tcatactgct gaacaagcac attgacgcat acaaaacatt cccaccaaca 29220 

gagcctaaaa aggacaaaaa gaaaaagact gatgaagctc agcctttgcc gcagagacaa 29280 

aagaagcagc ccactgtgac tcttcttcct gcggctgaca tggatgattt ctccagacaa 29340 

cttcaaaatt ccatgagtgg agcttctgct gattcaactc aggcataaac actcatgatg 29400 

accacacaag gcagatgggc tatgtaaacg ttttcgcaat tccgtttacg atacatagtc 29460 

tactcttgtg cagaatgaat tctcgtaact aaacagcaca agtaggttta gttaacttta 29520 
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atctcacata gcaatcttta atcaatgtgt aacattaggg aggacttgaa agagccacca 29580 

cattttcatc gaggccacgc ggagtacgat cgagggtaca gtgaataatg ctagggagag 29640 

ctgcctatat ggaagagccc taatgtgtaa aattaatttt agtagtgcta tccccatgtg 29700 

attttaatag cttcttagga gaatgacaaa aaaaaaaaaa aaaaaa 29746 

<210> 2 

<211> 3945 

<212> DNA 

<213> CORONAVIRUS 

<220> 

<221> CDS 

<222> (89).. (3853) 

<223> 



<400> 2 

ttctcttctg gaaaaaggta ggcttatcat tagagaaaac aacagagttg tggtttcaag 60 

tgatattctt gttaacaact aaacgaac atg ttt att ttc tta tta ttt ctt 112 

Met Phe lie phe Leu Leu Phe Leu 
1 5 

act etc act agt ggt agt gac ctt gac egg tgc acc act ttt gat gat 160 
Thr Leu Thr ser Gly ser Asp Leu Asp Arg cys Thr Thr Phe Asp Asp 
10 15 20 

gtt caa get cct aat tac act caa cat act tea tct atg agg ggg gtt 208 
val Gin Ala Pro Asn Tyr Thr Gin His Thr Ser Ser Met Arg Gly Val 
25 30 35 40 

tac tat cct gat gaa att ttt aga tea gac act ctt tat tta act cag 256 
Tyr Tyr Pro Asp Glu lie Phe Arg Ser Asp Thr Leu Tyr Leu Thr Gin 
45 50 55 

gat tta ttt ctt cca ttt tat tct aat gtt aca ggg ttt cat act att 304 
Asp Leu Phe Leu Pro Phe Tyr ser Asn Val Thr Gly Phe His Thr lie 
60 65 70 

aat cat acg ttt ggc aac cct gtc ata cct ttt aag gat ggt att tat 352 
ly Asn Pro val lie Pro Phe Lys Asp Gly ll< 



Asn His Thr Phe Gly Asn Pro val lie Pro Phe Lys Asp Gly lie Tyr 

75 80 85 

ttt get gec aca gag aaa tea aat gtt gtc cgt ggt tgg gtt ttt ggt 

Phe Ala Ala Thr Glu Lys Ser Asn Val Val Arg Gly Trp Val Phe Gly 

90 95 100 

tct acc atg aac aac aag tea cag teg gtg att att att aac aat tct 

ser Thr Met Asn Asn Lys Ser Gin ser val lie lie lie Asn Asn Ser 

105 110 115 120 



400 



448 



act aat gtt gtt ata cga gca tgt aac ttt gaa ttg tgt gac aac cct 496 

Thr Asn val Val lie Arg Ala cys Asn Phe Glu Leu cys Asp Asn Pro 
125 "* 130 135 
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ttc ttt act Qtt tct aaa ccc atg ggt aca cag aca cat act atg ata 
Phe Phe Ala va! Ser Lys Pro Met Gly Thr Gin Thr His Thr Met lie 
140 145 150 

ttc gat aat gca ttt aat tgc act ttc gag tac ata tct gat gcc ttt 
Phe Asp Asn Ala Phe Asn Cys Thr Phe Glu Tyr He ser Asp Ala Phe 
155 160 165 

teg ctt gat gtt tea gaa aag tea ggt aat ttt aaa cac tta cga gag 
ser Leu Asp Val ser Glu Lys Ser Gly Asn Phe Lys His Leu Arg Glu 
170 175 180 

ttt gtg ttt aaa aat aaa gat ggg ttt etc tat gtt tat aag ggc tat 
Phe val Phe Lys Asn Lys Asp Gly Phe Leu Tyr val Tyr Lys Gly Tyr 
185 190 195 200 

caa cct ata gat gta gtt cgt gat eta cct tct ggt ttt aac act ttg 
Gin Pro He Asp Val val Arg Asp Leu Pro Ser Gly Phe Asn Thr Leu 
205 210 215 

aaa cct att ttt aag ttg cct ctt ggt att aac att aca aat ttt aga 
Lvs Pro lie Phe Lys Leu pro Leu Gly lie Asn lie Thr Asn Phe Arg 
220 225 230 

gcc att ctt aca gcc ttt tea cct get caa gac att tgg ggc acg tea 
Ala He Leu Thr Ala Phe ser Pro Ala Gin Asp He Trp Gly Thr Ser 
235 240 245 

act qca gcc tat ttt gtt ggc tat tta aag cca act aca ttt atg etc 
Ala Ala Ala Tyr Phe Val Gly Tyr Leu Lys Pro Thr Thr Phe Met Leu 
250 255 260 

aag tat gat gaa aat ggt aca ate aca gat get gtt gat tgt tct caa 
Lys Tyr Asp Glu Asn Gly Thr lie Thr Asp Ala val Asp Cys ser Gin 
265 270 275 280 

aat cca ctt get gaa etc aaa tgc tct gtt aag age ttt gag att gac 
Asn Pro Leu Ala Glu Leu Lys cys Ser Val Lys ser Phe Glu lie Asp 
285 290 295 

aaa gga att tac cag ace tct aat ttc agg gtt gtt ccc tea gga gat 
Lys Gly He Tyr Gin Thr Ser Asn Phe Arg val val Pro ser Gly Asp 
y 300 305 310 

gtt gtg aga ttc cct aat att aca aac ttg tgt cct ttt gga gag gtt 
Val val Arg Phe Pro Asn lie Thr Asn Leu cys Pro Phe Gly Glu val 
315 320 325 

ttt aat get act aaa ttc cct tct gtc tat gca tgg gag aga aaa aaa 
Phe Asn Ala Thr Lys Phe Pro Ser Val Tyr Ala Trp Glu Arg Lys Lys 
330 335 340 

att tct aat tgt gtt get gat tac tct gtg etc tac aac tea aca ttt 
lie Ser Asn Cys Val Ala Asp Tyr ser val Leu Tyr Asn ser Thr Phe 
345 350 355 360 

ttt tea acc ttt aag tgc tat ggc gtt tct gcc act aag ttg aat gat 
Phe Ser Thr Phe Lys cys Tyr Gly Val ser Ala Thr Lys Leu Asn Asp 
365 370 375 

ctt tgc ttc tec aat gtc tat gca gat tct ttt gta gtc aag gga gat 
Leu cys Phe Ser Asn val Tyr Ala Asp Ser Phe val val Lys Gly Asp 
380 385 390 

gat gta aga caa ata gcg cca gga caa act ggt gtt att get gat tat 
Asp val Arg Gin He Ala Pro Gly Gin Thr Gly val lie Ala Asp Tyr 
395 400 405 
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aat tat aaa ttg cca gat gat ttc atg ggt tgt gtc ctt get tgg aat 1360 

Asn Tyr Lys Leu Pro Asp Asp Phe Met Gly Cys val Leu Ala Trp Asn 

410 415 420 

act agg aac att gat get act tea act ggt aat tat aat tat aaa tat 1408 

Thr Arg Asn lie Asp Ala Thr ser Thr Gly Asn Tyr Asn Tyr Lys Tyr 

425 " 430 435 440 



agg tat ctt aga cat ggc aag ctt agg ccc ttt gag aga gac ata tct 
Arg Tyr Leu Arg His Gly Lys Leu Arg Pro Phe Glu Arg Asp lie Ser 
445 450 455 



1456 



aat gtg cct ttc tec cct gat gqc aaa cct tgc ace cca cct get ctt 1504 

Asn vat Pro Phe Ser Pro Asp Gly Lys Pro cys Thr Pro Pro Ala Leu 

460 465 470 

aat tgt tat tgg cca tta aat gat tat ggt ttt tac ace act act gqc 1552 

Asn Cys Tyr Trp Pro Leu Asn Asp Tyr Gly Phe Tyr Thr Thr Thr Gly 

475 480 485 

att gqc tac caa cct tac aga gtt gta gta ctt tct ttt gaa ctt tta 1600 

lie Gly Tyr Gin Pro Tyr Arg val val val Leu ser Phe Glu Leu Leu 

490 495 500 

aat gca ccg gee acg gtt tgt gga cca aaa tta tec act gac ctt att 1648 

Asn Ala Pro Ala Thr val Cys Gly Pro Lys Leu ser Thr Asp Leu lie 
505 510 515 520 

aag aac cag tgt gtc aat ttt aat ttt aat gqa etc act ggt act ggt 1696 

Lys Asn Gin Cys val Asn Phe Asn Phe Asn Gly Leu Thr Gly Thr Gly 
525 530 535 

gtg tta act cct tct tea aag aga ttt caa cca ttt caa caa ttt ggc 

Val Leu Thr Pro ser ser Lys Arg Phe Gin Pro Phe Gin Gin Phe Gly 

540 545 550 



1744 



cgt gat gtt tct gat ttc act gat tec gtt cga gat cct aaa aca tct 1792 
Arg Asp Val Ser Asp Phe Thr Asp Ser Val Arg Asp Pro Lys Thr Ser 
555 560 565 

gaa ata tta gac att tea cct tgc tct ttt ggg ggt gta agt gta att 1840 
Glu lie Leu Asp lie ser pro cys ser Phe Gly Gly Val Ser val lie 
570 575 580 

aca cct gga aca aat get tea tct gaa gtt get gtt eta tat caa gat 1888 
Thr Pro Gly Thr Asn Ala ser ser Glu val Ala val Leu Tyr Gin Asp 
585 590 595 600 

gtt aac tgc act gat gtt tct aca gca att cat gca gat caa etc aca 1936 
val Asn Cys Thr Asp val Ser Thr Ala lie His Ala Asp Gin Leu Thr 
605 610 615 

cca get tgg cge ata tat tct act gga aac aat gta ttc cag act caa 1984 
Pro Ala Trp Arg lie Tyr ser Thr Gly Asn Asn val Phe Gin Thr Gin 
620 625 630 

gca gqc tgt ctt ata gga get gag cat gtc gac act tct tat gag tgc 2032 
Ala Gly cys Leu lie Gly Ala Glu His Val Asp Thr ser Tyr Glu cys 
635 640 645 

gac att cct att gga get ggc att tgt get agt tac cat aca gtt tct 2080 
Asp lie Pro lie Gly Ala Gly lie Cys Ala Ser Tyr His Thr Val Ser 
650 655 660 

tta tta cgt agt act age caa aaa tct att gtg get tat act atg tct 2128 
Leu Leu Arg Ser Thr Ser Gin Lys Ser lie Val Ala Tyr Thr Met Ser 
665 670 675 680 
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2176 



2224 



2272 



2320 



2368 



2464 



tta ggt get gat agt tea att get tac tct aat aac acc att get ata 
Leu Gfy Ala Asp ser ser He Ala Tyr ser Asn Asn Thr He Ala lie 
' 685 690 695 

cct act aac ttt tea att age att act aca gaa gta atg cct gtt tct 
Pro Thr Asn Phe Ser He sir He Thr Thr Glu Val Met Pro Val Ser 
700 705 710 

atq get aaa acc tec gta gat tgt aat atg tac ate tgc gga gat tct 
Met Ala Lys Thr ser Val Asp Cys Asn Met Tyr He cys Gly Asp ser 
715 720 725 

act gaa tgt get aat ttg ctt etc caa tat ggt age ttt tgc aca caa 
Thr Glu cys Ala Asn Leu Leu Leu Gin Tyr Gly ser Phe cys Thr Gin 
730 735 740 

eta aat cgt gca etc tea ggt att get get gaa cag gat cgc aac aca 
Leu Asn Arg Ala Leu Ser Gly lie Ala Ala Glu Gin Asp Arg Asn Thr 
745 750 755 760 

cat gaa gtg ttc get caa gtc aaa caa atg tac aaa acc cca act ttg 2416 
Arg Glu val Phe Ala Gin val Lys Gin Met Tyr Lys Thr Pro Thr Leu 
765 770 775 

aaa tat ttt ggt ggt ttt aat ttt tea caa ata tta cct gac cct eta 
Lys Tyr Phe Gly Gly Phe Asn Phe ser Gin lie Leu Pro Asg Pro Leu 

aag cca act aag agg tct ttt att gag gac ttg etc ttt aat aag gtg 2512 
Lys Pro Thr Lys Arg Ser Phe He Glu Asp Leu Leu Phe Asn Lys val 
795 800 805 

aca etc get gat get ggc ttc atg aag caa tat ggc gaa tgc eta ggt 
Thr Leu Ala Asp Ala G?y Phe Met Lys Gin Tyr Gly Glu Cys Leu Gly 
810 815 820 

gat att aat get aga gat etc att tgt gcg cag aag ttc aat gga ctt 
Asp lie Asn Ala Arg Asp Leu He cys Ala Gin Lys Phe Asn Gly Leu 
825 830 835 840 

aca gtg ttg cca cct ctg etc act gat gat atg att get gee tac act 
Thr Val Leu Pro Pro Leu Leu Thr Asp Asp Met lie Ala Ala Tyr Thr 
845 850 855 

get get eta gtt agt ggt act gec act get gga tgg aca ttt ggt get 
Ala Ala Leu Val Ser Gly Thr Ala Thr Ala Gly Trp Thr Phe Gly Ala 
860 865 870 

qqc get get ctt caa ata cct ttt get atg caa atg gca tat agg ttc 
Gly Ala Ala Leu Gin lie Pro Phe Ala Met Gin Met Ala Tyr Arg Phe 
875 880 885 

aat ggc att gga gtt acc caa aat gtt etc tat gag aac caa aaa caa 
Asn Gly He Gly Val Thr Gin Asn val Leu Tyr Glu Asn Gin Lys Gin 
890 895 900 

ate gee aac caa ttt aac aag gcg att agt caa att caa gaa tea ctt 
He Ala Asn Gin Phe Asn Lys Ala lie ser Gin lie Gin Glu Ser Leu 
905 910 915 920 

aca aca aca tea act gca ttg ggc aag ctg caa gac gtt gtt aac cag 
Thr Thr Thr Ser Thr Ala Leu Gly Lys Leu Gin Asp val val Asn Gin 
925 930 935 

aat get caa gca tta aac aca ctt gtt aaa caa ctt age tct aat ttt 

Asn Ala Gin Ala Leu Asn Thr Leu val Lys Gin Leu Ser ser Asn Phe 

940 945 950 

Page 19 



2560 



2608 



2656 



2704 



2752 



2800 



2848 



2896 



2944 



S226CAS108.ST25 

ggt gca att tea agt gtg eta aat gat ate ctt teg cga ctt gat aaa 2992 
Gly Ala lie Ser Ser Val Leu Asn Asp lie Leu Ser Arg Leu Asp Lys 
955 960 965 

gtc gag gcg gag gta caa att gac agg tta att aca ggc aga ctt caa 3040 
val Glu Ala Glu val Gin lie Asp Arg Leu lie Thr Gly Arg Leu Gin 
970 975 980 

age ctt caa ace tat gta aca caa caa eta ate agg get get gaa ate 3088 
ser Leu Gin Thr Tyr val Thr Gin Gin Leu lie Arg Ala Ala Glu lie 
985 990 995 ~ 1000 

agg get tct get aat ctt get get act aaa atg tct gag tgt gtt 3133 
Arg Ala Ser Ala Asn Leu Ala Ala Thr Lys Met ser Glu cys val 
1005 1010 1015 



ctt gga caa tea aaa aga gtt gac ttt tgt gga aag ggc tac cac 
Leu Gly Gin ser Lys Arg Val Asp Phe cys Gly Lys Gly Tyr His 
1020 1025 1030 



aag tac ttc aaa aat cat aca tea cca gat gtt gat ctt ggc gac 
Lys Tyr Phe Lys Asn His Thr Ser Pro Asp Val Asp Leu Gly Asp 
1140 1145 1150 



3178 



ctt atg tec ttc cca caa gca gee ccg cat ggt gtt gtc ttc eta 3223 

Leu Met Ser Phe Pro Gin Ala Ala Pro His Gly Val val Phe Leu 

1035 1040 1045 

cat gtc acg tat gtg cca tec cag gag agg aac ttc acc aca gcg 3268 

His Val Thr Tyr val Pro Ser Gin Glu Arg Asn Phe Thr Thr Ala 

1050 1055 1060 

cca gca att tgt cat gaa ggc aaa gca tac ttc cct cgt gaa ggt 3313 

Pro Ala lie Cys His Glu Gly Lys Ala Tyr Phe Pro Arg Glu Gly 

1065 1070 1075 

gtt ttt gtg ttt aat ggc act tct tgg ttt att aca cag agg aac 3358 

Val Phe val Phe Asn Gly Thr ser Trp Phe He Thr Gin Arg Asn 

1080 1085 1090 

ttc ttt tct cca caa ata att act aca gac aat aca ttt gtc tea 3403 

Phe Phe ser Pro Gin lie lie Thr Thr Asp Asn Thr Phe Val Ser 

1095 1100 1105 

gga aat tgt gat gtc gtt att ggc ate att aac aac aca gtt tat 3448 

Gly Asn cys Asp val val lie Gly lie lie Asn Asn Thr val Tyr 

1110 1115 1120 

gat cct ctg caa cct gag ctt gac tea ttc aaa gaa gag ctg gac 3493 

Asp Pro Leu Gin Pro Glu Leu Asp Ser phe Lys Glu Glu Leu Asp 

1125 1130 1135 



3538 



att tea ggc att aac get tct gtc gtc aac att caa aaa gaa att 3583 
lie ser Gly He Asn Ala Ser val Val Asn lie Gin Lys Glu lie 
1155 1160 1165 

gac cgc etc aat gag gtc get aaa aat tta aat gaa tea etc att 3628 

Asp Arg Leu Asn Glu val Ala Lys Asn Leu Asn Glu ser Leu lie 
1170 1175 1180 

gac ctt caa gaa ttg gga aaa tat gag caa tat att aaa tgg cct 3673 

Asp Leu Gin Glu Leu Gly Lys Tyr Glu Gin Tyr lie Lys Trp Pro 
1185 1190 1195 

tgg tat gtt tgg etc ggc ttc att get gga eta att gee ate gtc 3718 

Trp Tyr Val Trp Leu Gly Phe He Ala Gly Leu He Ala lie val 
1200 1205 1210 
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«-„ aM atr tta ctt tat tgc atg act agt tgt tgc agt tgc 
SS val Th? ?le 38 lS §s C?s Me? Thr ser cys cys ser cys $ 
1215 x^^u 

S SI ifv R || 0 12 $ Ifv S i 5 35 51 S e i 0 
BS B5 £ 88 S s «H 2S SI 85 «S 51 S SI 5? ?S 

taaacgaact tatggatttg tttatgagat tttttactct tggatcaatt actgcacagc 3913 
cagtaaaaat tgacaatgct tctcctgcaa gt 

<210> 3 

<211> 1255 

<212> PRT 

<213> CORONAVIRUS 

<400> 3 

Met Phe He Phe Leu Leu Phe Leu Thr Leu Thr Ser Gly Ser Asp Leu 
1 5 10 iJ 

Asp Arg cys Thr Thr Phe Asp Asp val Gin Ala Pro Asn Tyr Thr Gin 

His Thr ser Ser Met Arg Gly Val Tyr Tyr Pro Asp Glu He Phe Arg 
35 40 

Ser Asp Thr Leu Tyr Leu Thr Gin Asp Leu Phe Leu Pro Phe Tyr Ser 
50 55 

Asn val Thr Gly Phe His Thr He Asn His Thr Phe Gly Asn Pro val 
65 70 

He Pro Phe Lys Asp Gly He Tyr Phe Ala Ala Thr Glu Lys Ser Asn 
85 " u 

val val Arg Gly Trp val Phe Gly Ser Thr Met. Asn Asn. Lys Ser Gin 
100 105 

Ser val He lie He Asn Asn Ser Thr Asn val Val lie Arg Ala Cys 
115 120 

Asn Phe Glu Leu cys Asp Asn Pro Phe Phe Ala val Ser Lys Pro Met 
130 135 140 

Gly Thr Gin Thr His Thr Met He Phe Asp Asn Ala Phe Asn Cys Thr 
145 page 21 
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Phe Glu Tyr lie ser Asp Ala Phe Ser Leu Asp val ser Glu Lys ser 
165 170 175 

Gly Asn Phe Lys His Leu Arg Glu Phe Val Phe Lys Asn Lys Asp Gly 
180 185 190 

Phe Leu Tyr Val Tyr Lys Gly Tyr Gin Pro lie Asp Val val Arg Asp 
195 200 205 

Leu Pro Ser Gly Phe Asn Thr Leu Lys Pro lie Phe Lys Leu Pro Leu 
210 215 220 

Gly lie Asn lie Thr Asn Phe Arg Ala lie Leu Thr Ala Phe ser Pro 
225 230. 235 240 

Ala Gin Asp lie Trp Gly Thr Ser Ala Ala Ala Tyr Phe val Gly Tyr 
245 250 255 

Leu Lys Pro Thr Thr Phe Met Leu Lys Tyr Asp Glu Asn Gly Thr lie 
260 265 270 

Thr Asp Ala val Asp cys ser Gin Asn Pro Leu Ala Glu Leu Lys cys 
275 280 285 

Ser Val Lys Ser Phe Glu lie Asp Lys Gly lie Tyr Gin Thr Ser Asn 
290 295 300 

Phe Arg Val val Pro Ser Gly Asp Val Val Arg Phe Pro Asn lie Thr 
305 310 315 320 

Asn Leu Cys Pro Phe Gly Glu Val Phe Asn Ala Thr Lys Phe Pro ser 
325 330 335 

val Tyr Ala Trp Glu Arg Lys Lys lie Ser Asn cys Val Ala Asp Tyr 
340 345 350 

Ser Val Leu Tyr Asn Ser Thr Phe Phe Ser Thr Phe Lys Cys Tyr Gly 
355 360 365 

Val Ser Ala Thr Lys Leu Asn Asp Leu Cys Phe Ser Asn Val Tyr Ala 
370 375 380 

Asp Ser Phe Val Val Lys Gly Asp Asp val Arg Gin lie Ala Pro Gly 
385 390 395 400 

Gin Thr Gly Val He Ala Asp Tyr Asn Tyr Lys Leu Pro Asp Asp Phe 
405 410 415 

Met Gly cys val Leu Ala Trp Asn Thr Arg Asn lie Asp Ala Thr Ser 
420 425 430 
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Thr Gly Asn Tyr Asn Tyr Lys Tyr Arg Tyr Leu Arg His Gly Lys Leu 
435 440 445 

Arq Pro Phe Glu Arg Asp lie Ser Asn val Pro Phe Ser Pro Asp Gly 
450 455 460 

Lys Pro cys Thr Pro Pro Ala Leu Asn cys Tyr Trp Pro Leu Asn Asp 
465 470 475 480 

Tyr Gly Phe Tyr Thr Thr Thr Gly lie Gly Tyr Gin Pro Tyr Arg val 
485 490 495 

val val Leu ser Phe Glu Leu Leu Asn Ala Pro Ala Thr val cys Gly 
500 505 510 

pro Lys Leu ser Thr Asp Leu lie Lys Asn Gin cys val Asn Phe Asn 
.515 520 525 

Phe Asn Gly Leu Thr Gly Thr Gly Val Leu Thr Pro Ser Ser Lys Arg 
530 535 540 

Phe Gin Pro Phe Gin Gin Phe Gly Arg Asp val Ser Asp Phe Thr Asp 
545 550 555 560 

Ser val Arg Asp Pro Lys Thr ser Glu lie Leu Asp lie Ser Pro Cys 

ser Phe Gly Gly val Ser val lie Thr Pro Gly Thr Asn Ala ser ser 
580 585 590 

Glu val Ala Val Leu Tyr Gin Asp Val Asn Cys Thr Asp val ser Thr 
595 ' 600 605 

Ala lie His Ala Asp Gin Leu Thr Pro Ala Trp Arg lie Tyr ser Thr 
610 615 620 

Gly Asn Asn val Phe Gin Thr Gin Ala Gly cys Leu lie Gly Ala Glu 
625 630 635 640 

His . val. Asp Thr Ser Tyr . Glu Cys Asp lie Pro lie Gly Ala Gly He 
645 650 655 

Cys Ala ser Tyr His Thr Val Ser Leu Leu Arg Ser Thr ser Gin Lys 
660 665 670 

Ser He val Ala Tyr Thr Met ser Leu Gly Ala Asp ser Ser lie Ala 
675 680 685 

Tyr ser Asn Asn Thr lie Ala He Pro Thr Asn Phe ser lie Ser lie 
690 695 700 
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Thr Thr Glu val Met pro val ser Met Ala Lys Thr ser val Asp cys 
705 710 715 720 

Asn Met Tyr He Cys Gly Asp Ser Thr Glu Cys Ala Asn Leu Leu Leu 
725 730 735 

Gin Tyr Gly Ser Phe cys Thr Gin Leu Asn Arg Ala Leu ser Gly lie 
740 ' 745 750 

Ala Ala Glu Gin Asp Arg Asn Thr Arg Glu Val Phe Ala Gin val Lys 
755 760 765 

Gin Met Tyr Lys Thr Pro Thr Leu Lys Tyr Phe Gly Gly Phe Asn Phe 
770 775 780 

Ser Gin He Leu Pro Asp Pro Leu Lys Pro Thr Lys Arg Ser Phe lie 
785 790 795 800 

Glu Asp Leu Leu Phe Asn Lys Val Thr Leu Ala Asp Ala Gly Phe Met 
805 810 815 

Lys Gin Tyr Gly Glu Cys Leu Gly Asp He Asn Ala Arg Asp Leu lie 
820 825 830 

cys Ala Gin Lys Phe Asn Gly Leu Thr val Leu Pro Pro Leu Leu Thr 
835 840 845 

Asp Asp Met lie Ala Ala Tyr Thr Ala Ala Leu Val ser Gly Thr Ala 
850 855 860 

Thr Ala Gly Trp Thr Phe Gly Ala Gly Ala Ala Leu Gin lie Pro Phe 
865 870 875 880 

Ala Met Gin Met Ala Tyr Arg Phe Asn Gly lie Gly Val Thr Gin Asn 
885 " 890 895 

Val Leu Tyr Glu Asn Gin Lys Gin lie Ala Asn Gin Phe Asn Lys Ala 
900 905 910 

lie ser Gin lie Gin Glu Ser Leu Thr Thr Thr Ser Thr Ala Leu Gly 
915 920 925 

Lys Leu Gin Asp Val Val Asn Gin Asn Ala Gin Ala Leu Asn Thr Leu 
930 935 940 

Val Lys Gin Leu Ser Ser Asn Phe Gly Ala He ser ser Val Leu Asn 
945 950 955 960 

Asp lie Leu ser Arg Leu Asp Lys Val Glu Ala Glu val Gin lie Asp 
965 970 975 
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Arg Leu He Thr Gly Arg Leu Gin ser Leu Gin Thr Tyr Val Thr Gin 
980 yoD 

Gin Leu lie Arg Ala Ala Glu lie Arg Ala ser Ala Asn Leu Ala Ala 
995 1000 

Thr Lys Met ser Glu cys val Leu Gly Gin Ser Lys Arg val Asp 
1010 1015 

Phe cys Gly Lys Gly Tyr His Leu Met Ser Phe Pro Gin Ala Ala 
1025 1030 1Vi: > 

Pro His Gly Val Val Phe Leu His Val Thr Tyr Val Pro Ser Gin 
1040 104S xu:>u 

Glu Arg Asn Phe Thr Thr Ala Pro Ala lie Cys His Glu Gly Lys 
1055 1060 

Ala Tyr Phe Pro Arg Glu Gly val Phe val Phe Asn Gly Thr Ser 
1070 1075 x 

Trp Phe He Thr Gin Arg Asn Phe Phe ser Pro Gin He lie Thr 
1085 IO 90 1095 

Thr Asp Asn Thr Phe Val Ser Gly Asn cys Asp val val lie Gly 
1100 1105 

He He Asn Asn Thr val Tyr Asp Pro Leu Gin Pro Glu Leu Asp 
1X15 1120 xxto 

ser Phe Lys Glu Glu Leu Asp Lys Tyr Phe Lys Asn His Thr Ser 
1130 1135 x 

Pro Asp val Asp Leu Gly Asp He Ser Gly He Asn Ala Ser Val 
1145 I 150 ■ Lii 

val Asn He Gin Lys Glu He Asp Arg Leu Asn Glu val Ala Lys 
1160 1165 XJ - u 

Asn Leu Ash Glu Ser Leu lie Asp Leu Gin Glu Leu Gly Lys Tyr 
117 5 1180 1J - B: > 

Glu Gin Tyr He Lys Trp Pro Trp Tyr val Trp Leu Gly Phe He 
1190 1195 

Ala Gly Leu He Ala lie val Met val Thr He Leu Leu Cys Cys 
1205 1210 

Met Thr ser cys cys Ser Cys Leu Lys Gly Ala Cys Ser Cys Gly 

1220 I 225 X " 
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ser cys Cys Lys Phe Asp Glu Asp Asp ser Glu Pro val Leu Lys 
1235 1240 1245 

Gly val Lys Leu His Tyr Thr 
1250 1255 

<210> 4 

<211> 3943 

<212> DNA 

<213> CORONAVIRUS 

<400> 4 

ctcttctgga aaaaggtagg cttatcatta gagaaaacaa cagagttgtg gtttcaagtg 60 

atattcttgt taacaactaa acgaacatgt ttattttctt attatttctt actctcacta 120 

gtggtagtga ccttgaccgg tgcaccactt ttgatgatgt tcaagctcct aattacactc 180 

aacatacttc atctatgagg ggggtttact atcctgatga aatttttaga tcagacactc 240 

tttatttaac tcaggattta tttcttccat tttattctaa tgttacaggg ttrtcatacta 300 

ttaatcatac gtttggcaac cctgtcatac cttttaagga tggtatttat tttgctgcca 360 

cagagaaatc aaatgttgtc cgtggttggg tttttggttc taccatgaac aacaagtcac 420 

agtcggtgat tattattaac aattctacta atgttgttat acgagcatgt aactttgaat 480 

tgtgtgacaa ccctttcttt gctgtttcta aacccatggg tacacagaca catractatga 540 

tattcgataa tgcatttaat tgcactttcg agtacatatc tgatgccttt tcgcttgatg 600 

tttcagaaaa gtcaggtaat tttaaacact tacgagagtt tgtgtttaaa aataaagatg 660 

ggtttctcta tgtttataag ggctatcaac ctatagatgt agttcgtgat ctaccttctg 720 

gttttaacac tttgaaacct attnttaagt tgcctcttgg tattaacatt acaaatttta 780 

gagccattct tacagccttt tcacctgctc aagacatttg gggcacgtca gctgcagcct 840 

attttgttgg ctatttaaag ccaactacat ttatgctcaa gtatgatgaa aatggtacaa 900 

tcacagatgc tgttgattgt tctcaaaatc cacttgctga actcaaatgc tctgttaaga 960 

gctttgagat tgacaaagga atttaccaga cctctaattt cagggttgtt ccctcaggag 1020 

atgttgtgag attccctaat attacaaact tgtgtccttt tggagaggtt tttaatgcta 1080 

ctaaattccc ttctgtctat gcatgggaga gaaaaaaaat ttctaattgt gttgctgatt 1140 

actctgtgct ctacaactca acattttttt caacctttaa gtgctatggc gtttctgcca 1200 

ctaagttgaa tgatctttgc ttctccaatg tctatgcaga ttcttttgta gtcaagggag 1260 

atgatgtaag acaaatagcg ccaggacaaa ctggtgttat tgctgattat aattataaat 1320 

tgccagatga tttcatgggt tgtgtccttg cttggaatac taggaacatt gatgctactt 1380 

caactggtaa ttataattat aaatataggt atcttagaca tggcaagctt aggccctttg 1440 
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agagagacat 


atctaatgtg 


cctttctccc 


ttaattgtta 


ttggccatta 


aatgattatg 


aaccttacag 


agttgtagta 


ctttcttttg 


gaccaaaatt 


atccactgac 


cttattaaga 


tcactggtac 


tggtgtgtta 


actccttctt 


gccgtgatgt 


ctctgatttc 


actgattccg 


acatttcacc 


ttgctctttt 


gggggtgtaa 


ctgaagttgc 


tgttctatat 


caagatgtta 


cagatcaact 


cacaccagct 


tggcgcatat 


aagcaggctg 


tcttatagga 


gctgagcatg 


ttggagctgg 


catttgtgct 


agttaccata 


aatctattgt 


ggcttatact 


atgtctttag 


acaccattgc 


tatacctact 


aacttttcaa 


ctatggctaa 


aacctccgta 


gattgtaata 


ctaatttgct 


tctccaatat 


ggtagctttt 


ttgctgctga 


acaggatcgc 


aacacacgtg 


aaaccccaac 


tttgaaatat 


tttggtggtt 


taaagccaac 


taagaggtct 


tttattgagg 


atgctggctt 


catgaagcaa 


tatggcgaat 


tttgtgcgca 


gaagttcaat 


gggcttacag 


ttgctgccta 


cactgctgct 


ctagttagtg 


ctggcgctgc 


tcttcaaata 


ccttttgcta 


gagttaccca 


aaatgttctc 


tatgagaacc 


cgattagtca 


aattcaagaa 


tcacttacaa 


acgttgttaa 


ccagaatgct 


caagcattaa 


ttggtgcaat 


ttcaagtgtg 


ctaaatgata 


aggtacaaat 


tgacaggcta 


attacaggca 


aacaactaat 


cagggctgct 


gaaatcaggg 


ctgagtgtgt 


tcttggacaa 


tcaaaaagag 


tgtccttccc 


acaagcagcc 


ccgcatggtg 


cccaggagag 


gaacttcacc 


acagcgccag 


ctcgtgaagg 


tgtttttgtg 


tttaatggca 


tttctccaca 


aataattact 


acagacaata 


ttggcatcat 


taacaacaca 


gtttatgatc 
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ctgatggcaa accttgcacc ccacctgctc 


1500 


gtttttacac 


cactactggc 


attggctacc 


1560 


aacttttaaa 


tgcaccggcc 


acggtttgtg 


1620 


accagtgtgt 


caattttaat 


tttaatggac 


1680 


caaagagatt 


tcaaccattt 


caacaatttg 


1740 


ttcgagatcc 


taaaacatct 


gaaatattag 


1800 


gtgtaattac 


acctggaaca 


aatgcttcat 


1860 


actgcactga 


tgtttctaca 


gcaatccatg 


1920 


attctactgg 


aaacaatgta 


ttccagactc 


1980 


tcgacacttc 


ttatgagtgc 


gacattccta 


2040 


cagtttcttt 


attacgtagt 


actagccaaa 


2100 


gtgctgatag 


ttcaattgct 


tactctaata 


2160 


ttagcattac tacagaagta 


atgcctgttt 


2220 


tgtacatctg 


cggagattct 


actgaatgtg 


2280 


gcacacaact 


aaatcgtgca 


ctctcaggta 


2340 


aagtgttcgc tcaagtcaaa caaatgtaca 


2400 


ttaatttttc 


acaaatatta 


cctgaccctc 


2460 


acttgctctt taataaggtg 


acactcgctg 


2520 


gcctaggtga tattaatgct 


agagatctca 


2580 


tgttgccacc 


tctgctcact 


gatgatatga 


2640 


gtactgccac tgctggatgg 


acatftggtg 


2700 


tgcaaatggc atataggttc aatggcartg 


2760 


aaaaacaaat 


cgccaaccaa 


tttaacaagg 


2820 


caacatcaac 


tgcattgggc 


aagctgcaag 


2880 


acacacttgt taaacaactt 


agctctaatt 


2940 


tcctttcgcg acttgataaa gtcgaggcgg 


3000 


gacttcaaag 


ccttcaaacc 


tatgtaacac 


3060 


cttctgctaa tcttgctgct actaaaatgt 


3120 


ttgacttttg tggaaagggc taccacctta 


3180 


ttgtcttcct 


acatgtcacg tatgtgccat 


3240 


caatttgtca 


tgaaggcaaa 


gcatacttcc 


3300 


cttcttggtt tattacacag aggaacttct 


3360 


catttgtctc 


aggaaattgt 


gatgtcgtta 


3420 


ctctgcaacc tgagcttgac tcattcaaag 


3480 
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aagagctgga caagtacttc aaaaatcata catcaccaga tgttgatctt ggcgacattt 3540 

caggcattaa cgcttctgtc gtcaacattc aaaaagaaat tgaccgcctc aatgaggtcg 3600 

ctaaaaattt aaatgaatca ctcattgacc ttcaagaatt gggaaaatat gagcaatata 3660 

ttaaatggcc ttggtatgtt tggctcggct tcattgctgg actaattgcc atcgtcatgg 3720 

ttacaatctt gctttgttgc atgactagtt gttgcagttg cctcaagggt gcatgctctt 3780 

gtggttcttg ctgcaagttt gatgaggatg actctgagcc agttctcaag ggtgtcaaat 3840 

tacattacac ataaacgaac ttatggattt gtttatgaga ttttttactc ttggatcaat 3900 

tactgcacag ccagtaaaaa ttgacaatgc ttctcctgca agt 3943 

<210> 5 

<211> 2049 

<212> DNA 

<213> CORONAVIRUS 



<400> 5 

ctcttctgga aaaaggtagg cttatcatta gagaaaacaa cagagttgtg gtttcaagtg 60 

atattcttgt taacaactaa acgaacatgt ttattttctt attatttctt actctcacta 120 

gtggtagtga ccttgaccgg tgcaccactt ttgatgatgt tcaagctcct aattacactc 180 

aacatacttc atctatgagg ggggtttact atcctgatga aatttttaga tcagacactc 240 

tttatttaac tcaggattta tttcttccat tttattctaa tgttacaggg tttcatacta 300 

ttaatcatac gtttggcaac cctgtcatac cttttaagga tggtatttat tttgctgcca 360 

cagagaaatc aaatgttgtc cgtggttggg tttttggttc taccatgaac aacaagtcac 420 

agtcggtgat tattattaac aattctacta atgttgttat acgagcatgt aactttgaat 480 

tgtgtgacaa ccctttcttt gctgtttcta aacccatggg tacacagaca catactatga 

tattcgataa tgcatttaat tgcactttcg agtacatatc tgatgccttt tcgcttgatg 

tttcagaaaa gtcaggtaat tttaaacact tacgagagtt tgtgtttaaa aataaagatg 

ggtttctcta tgtttataag ggctatcaac ctatagatgt agttcgtgat ctaccttctg 720 

gttttaacac tttgaaacct atttttaagt tgcctcttgg tattaacatt acaaatttta 780 

gagccattct tacagccttt tcacctgctc aagacatttg gggcacgtca gctgcagcct 

attttgttgg ctatttaaag ccaactacat ttatgctcaa gtatgatgaa aatggtacaa 

tcacagatgc. tgttgattgt tctcaaaatc cacttgctga actcaaatgc tctgttaaga 

gctttgagat tgacaaagga atttaccaga cctctaattt cagggttgtt ccctcaggag 1020 

atgttgtgag attccctaat attacaaact tgtgtccttt tggagaggtt tttaatgcta 1080 

ctaaattccc ttctgtctat gcatgggaga gaaaaaaaat ttctaattgt gttgctgatt 1140 

actctgtgct ctacaactca acattttttt caacctttaa gtgctatggc gtttctgcca 1200 
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ctaagttgaa tgatctttgc ttctccaatg tctatgcaga ttcttttgta gtcaagggag 1260 

atgatgtaag acaaatagcg ccaggacaaa ctggtgttat tgctgattat aattataaat 1320 

tgccagatga tttcatgggt tgtgtccttg cttggaatac taggaacatt gatgctactt 1380 

caactggtaa ttataattat aaatataggt atcttagaca tggcaagctt aggccctttg 1440 

agagagacat atctaatgtg cctttctccc ctgatggcaa accttgcacc ccacctgctc 1500 

ttaattgtta ttggccatta aatgattatg gtttttacac cactactggc attggctacc 1560 

aaccttacag agttgtagta ctttcttttg aacttttaaa tgcaccggcc acggtttgtg 1620 

gaccaaaatt atccactgac cttattaaga accagtgtgt caattttaat tttaatggac 1680 

tcactggtac tggtgtgtta actccttctt caaagagatt tcaaccattt caacaatttg 1740 

gccgtgatgt ctctgatttc actgattccg ttcgagatcc taaaacatct gaaatattag 1800 

acatttcacc ttgctctttt gggggtgtaa gtgtaattac acctggaaca aatgcttcat 1860 

ctgaagttgc tgttctatat caagatgtta actgcactga tgtttctaca gcaatccatg 1920 

cagatcaact cacaccagct tggcgcatat attctactgg aaacaatgta ttccagactc 1980 

aagcaggctg tcttatagga gctgagcatg tcgacacttc ttatgagtgc gacattccta 2040 

2049 

ttggagctg 

<210> 6 

<211> 2027 

<212> DNA 

<213> CORONAVIRUS 

catgcagatc aactcacacc agcttggcgc atatattcta ctggaaacaa tgtattccag 60 

actcaagcag gctgtctnat aggagctgag catgtcgaca cttcttatga gtgcgacatt 120 

cctattggag ctggcatttg tgctagttac catacagttt ctttattacg tagtactagc 180 

caaaaatcta ttgtggctta tactatgtct ttaggtgctg atagttcaat tgcttactct 

aataacacca ttgctatacc tactaacttt tcaattagca ttactacaga agtaatgcct 

gtttctatgg ctaaaacctc cgtagattgt aatatgtaca tctgcggaga ttctactgaa 360 

tgtgctaatt tgcttctcca atatggtagc ttttgcacac aactaaatcg tgcactctca 420 

ggtattgctg ctgaacagga tcgcaacaca cgtgaagtgt tcgctcaagt caaacaaatg 480 

tacaaaaccc caactttgaa atattttggt ggttttaatt tttcacaaat attacctgac 540 

cctctaaagc caactaagag gtcttttatt gaggacttgc tctttaataa ggtgacactc 

gctgatgctg gcttcatgaa gcaatatggc gaatgcctag gtgatattaa tgctagagat 

ctcatttgtg cgcagaagtt caatgggctt acagtgttgc cacctctgct cactgatgat 720 

atqattgctg cctacactgc tgctctagtt agtggtactg ccactgctgg atggacattt 780 
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ggtgctggcg ctgctcttca aatacctttt gctatgcaaa tggcatatag gttcaatggc 840 

attggagtta cccaaaatgt tctctatgag aaccaaaaac aaatcgccaa ccaatttaac 900 

aaggcgatta gtcaaattca agaatcactt acaacaacat caactgcatt gggcaagctg 960 

caagacgttg ttaaccagaa tgctcaagca ttaaacacac ttgttaaaca acttagctct 1020 

aattttggtg caatttcaag tgtgctaaat gatatccttt cgcgacttga taaagtcgag 1080 

gcggaggtac aaattgacag gttaattaca ggcagacttc aaagccttca aacctatgta 1140 

acacaacaac taatcagggc tgctgaaatc agggcttctg ctaatcttgc tgctactaaa 1200 

atgtctgagt gtgttcttgg acaatcaaaa agagttgact tttgtggaaa gggctaccac 1260 

cttatgtcct tcccacaagc agccccgcat ggtgttgtct tcctacatgt cacgtatgtg 1320 

ccatcccagg agaggaactt caccacagcg ccagcaattt gtcatgaagg caaagcatac 1380 

ttccctcgtg aaggtgtttt tgtgtttaat ggcacttctt ggtttattac acagaggaac 1440 

ttcttttctc cacaaataat tactacagac aatacatttg tctcaggaaa ttgtgatgtc 1500 

gttattggcg tcattaacaa cacagtttat gatcctctgc aacctgagct tgactcattc 1560 

aaagaagagc tggacaagta cttcaaaaat catacatcac cagatgttga tcttggcgac 1620 

atttcaggca ttaacgcttc tgtcgtcaac attcaaaaag aaattgaccg cctcaatgag 1680 

gtcgctaaaa atttaaatga atcactcatt gaccttcaag aattgggaaa atatgagcaa 1740 

tatattaaat ggccttggta tgtttggctc ggcttcattg ctggactaat tgccatcgtc 1800 

atggttacaa tcttgctttg ttgcatgact agttgttgca gttgcctcaa gggtgcatgc 1860 

tcttgtggtt cttgctgcaa gtttgatgag gatgactctg agccagttct caagggtgtc 1920 

aaattacatt acacataaac gaacttatgg atttgtttat gagatttttt actcttggat 1980 

caattactgc acagccagta aaaattgaca atgcttctcc tgcaagt 2027 

<210> 7 

<211> 1096 

<212> DNA 

<213> CORONAVIRUS 

<400> 7 

tcttgctttg ttgcatgact agttgttgca gttgcctcaa gggtgcatgc tcttgtggtt 60 

cttgctgcaa gtttgatgag gatgactctg agccagttct caagggtgtc aaattacatt 120 

acacataaac gaacttatgg atttgtttat gagatttttt actcttggat caattactgc 180 

acagccagta aaaattgaca atgcttctcc tgcaagtact gttcatgcta cagcaacgat 240 

accgctacaa gcctcactcc ctttcggatg gcttgttatt ggcgttgcat ttcttgctgt 300 

ttttcagagc gctaccaaaa taattgcgct caataaaaga tggcagctag ccctttataa 360 

gggcttccag ttcatttgca atttactgct gctatttgtt accatctatt cacatctttt 420 
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gcttgtcgct gcaggtatgg aggcgcaatt tttgtacctc tatgccttga tatattttct 
acaatgcatc aacgcatgta gaattattat gagatgttgg ctttgttgga agtgcaaatc 
caagaaccca ttactttatg atgccaacta ctttgtttgc tggcacacac ataactatga 
ctactgtata ccatataaca gtgtcacaga tacaattgtc gttactgaag gtgacggcat 
ttcaacacca aaactcaaag aagactacca aattggtggt tattctgagg ataggcactc 
aggtgttaaa gactatgtcg ttgtacatgg ctatttcacc gaagtttact accagcttga 
gtctacacaa attactacag acactggtat tgaaaatgct acattcttca tctttaacaa 
gcttgttaaa gacccaccga atgtgcaaat acacacaatc gacggctctt caggagttgc 
taatccagca atggatccaa tttatgatga gccgacgacg actactagcg tgcctttgta 
agcacaagaa agtgagtacg aacttatgta ctcattcgtt tcggaagaaa caggtacgtt 
aatagttaat agcgtacttc tttttcttgc tttcgtggta ttcttgctag tcacactagc 
catccttact gcgctt 



<210> 8 

<211> 1135 

<212> DNA 

<213> CORONAVIRUS 



480 
540 
600 
660 
720 
780 
840 
900 
960 
1020 
1080 
1096 



a??gcca?cg tcatggttac aatcttgctt tgttgcatga ctagttgttg cagttgcctc 60 

aagggtgcat gctcttgtgg ttcttgctgc aagtttgatg aggatgactc tgagccagtt 120 

ctcaagggtg tcaaattaca ttacacataa acgaacttat ggatttgttt atgagatttt 

ttactcttgg atcaattact gcacagccag taaaaattga caatgcttct cctgcaagta 

ctgttcatgc tacagcaacg ataccgctac aagcctcact ccctttcgga tggcttgtta 

ttggcgttgc atttcttgct gtttttcaga gcgctaccaa aataattgcg ctcaataaaa 

gatggcagct agccctttat aagggcttcc agttcatttg caatttactg ctgctatttg 

ttaccatcta ttcacatctt ttgcttgtcg ctgcaggtat ggaggcgcaa tttttgtacc 

tctatgcctt gatatatttt ctacaatgca tcaacgcatg tagaattatt atgagatgtt 

ggctttgttg gaagtgcaaa tccaagaacc cattacttta tgatgccaac tactttgttt 

gctggcacac acataactat gactactgta taccatataa cagtgtcaca gatacaattg 

tcgttactga aggtgacggc atttcaacac caaaactcaa agaagactac caaattggtg 

gttattctga ggataggcac tcaggtgtta aagactatgt cgttgtacat ggctatttca 

ccgaagttta ctaccagctt gagtctacac aaattactac agacactggt attgaaaatg 

ctacattctt catctttaac aagcttgtta aagacccacc gaatgtgcaa atacacacaa 

tcgacggctc ttcaggagtt gctaatccag caatggatcc aatttatgat gagccgacga 
y " page 31 



180 
240 
300 
360 
420 
480 
540 
600 
660 
720 
780 
840 
900 
960 
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cgactactag cgtgcctttg taagcacaag aaagtgagta cgaacttatg tactcattcg 1020 

tttcggaaga aacaggtacg ttaatagtta atagcgtact tctttttctt gctttcgtgg 1080 

tattcttgct agtcacacta gccatcctta ctgcgcttcg attgtgtgcg tactg 1135 

<210> 9 

<211> 1096 

<212> DNA 

<213> CORONAVIRUS 

<220> 

<221> CDS 

<222> (137) . . (958) 

<223> 



<400> 9 

tcttgctttg ttgcatgact agttgttgca gttgcctcaa gggtgcatgc tcttgtggtt 60 

cttgctgcaa gtttgatgag gatgactctg agccagttct caagggtgtc aaattacatt 120 

acacataaac gaactt atg gat ttg ttt atg aga ttt ttt act ctt gga tea 172 

Met Asp Leu Phe Met Arg Phe Phe Thr Leu Gly ser 
1 5 10 

att act gca cag cca gta aaa att gac aat get tct cct gca agt act 220 
lie Thr Ala Gin Pro Val Lys lie Asp Asn Ala Ser Pro Ala Ser Thr 
15 20 25 

gtt cat get aca gca acg ata ccg eta caa gee tea etc cct ttc gga 268 
Val His Ala Thr Ala Thr lie Pro Leu Gin Ala Ser Leu Pro Phe Gly 
30 35 40 

tgg ctt gtt att ggc gtt gca ttt ctt get gtt ttt cag age get acc 316 
Trp Leu val lie Gly val Ala Phe Leu Ala Val Phe Gin ser Ala Thr 
45 50 55 60 

aaa ata att gcg etc aat aaa aga tgg cag eta gee ctt tat aag ggc 364 
Lys lie lie Ala Leu Asn Lys Arg Trp Gin Leu Ala Leu Tyr Lys Gly 
65 70 75 

ttc cag ttc att tgc aat tta ctg ctg eta ttt gtt acc ate tat tea 412 
Phe Gin Phe lie Cys Asn Leu Leu Leu Leu Phe val Thr lie Tyr ser 
80 85 90 

cat ctt ttg ctt gtc get gca gat atg gag gcg caa ttt ttg tac etc 460 
His Leu Leu Leu val Ala Ala Gly Met Glu Ala Gin Phe Leu Tyr Leu 
95 100 105 

tat gec ttg ata tat ttt eta caa tgc ate aac gca tgt aga att att 508 
Tyr Ala Leu lie Tyr Phe Leu Gin cys lie Asn Ala Cys Arg lie lie 
110 115 120 

atg aga tgt tgg ctt tgt tgg aag tgc aaa tec aag aac cca tta ctt 556 

Met Arg cys Trp Leu cys Trp Lys cys Lys ser Lys Asn Pro Leu Leu 
125 " 130 135 140 
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nat acc aac tac ttt qtt tgc tag cac aca cat aac tat gac tac 
Tyr Sp Ala Sn Tyr Phi val c?s Trp His Thr His Asn Tyr Asp Tyr 
r 145 150 -»•->■> 

tgt ata cca tat aac agt gtc aca gat aca att gtc gtt act gaa ggt 
cys lie Pro Tyr Asn sir val Thr Asp Thr He val val Thr Glu Gly 
160 . 165 1/0 

gac ggc att tea aca cca aaa etc aaa gaa gac tac caa att ggt ggt 
Asp Gly He ser Thr Pro Lys Leu Lys Glu Asp Tyr Gin He Gly Gly 
175 180 -L85 

tat tct aaa aat aqq cac tea ggt gtt aaa gac tat gtc gtt gta cat 
T y? Hr Glu Sp A?g Sis ser G?y Val Lys Asp Tyr Val val val ms 
190 195 

aqc tat ttc acc gaa gtt tac tac cag ett gag tct aca caa att act 
Gly Tyr Phe Thr Glu val Tyr Tyr Gin Leu Glu Ser Thr Gin He Thr 
205 210 215 " u 

aca aac act qqt att gaa aat get aca ttc ttc ate ttt aac aag ett 
Thr A?p Thr G?y lie Glu Asn Ala Thr Phe Phe He Phe Asn Lys Leu 

att aaa aac cca ccg aat gtg caa ata cac aca ate gac ggc tct tea 892 
val 51 A?P So Pro Asn Vat Gin lie His Thr lie Asp gTv Ser Ser 
240 245 

aaa att act aat cca gca atg gat cca att tat gat gag ccg acg acg 940 
G?y val All Asn Pro Ala Met Asp Pro He Tyr Asp Glu Pro Thr Thr 

255 260 265 v; 

988 



604 



652 



700 



748 



796 



844 



act act age gtg cct ttg taagcacaag aaagtgagta cgaacttatg 
Thr Thr Ser val Pro Leu 



270 



1096 



tactcattcg ttteggaaga aacaggtacg ttaatagtta atagegtact tctttttctt 1048 
gctttcgtgg tattcttget agtcacacta gccatcctta ctgegett 

<210> 10 

<211> 274 

<212> PRT 

<213> CORONAVIRUS 

<400> 10 

Met Asp Leu Phe Met Arg Phe Phe Thr Leu Gly Ser lie Thr Ala Gin 
1 5 10 J- 5 

pro val Lys lie Asp Asn Ala ser Pro Ala Ser Thr val His Ala Thr 

Ala Thr He Pro Leu Gin Ala ser Leu Pro Phe Gly Trp Leu val lie 
35 40 45 

Gly val Ala Phe Leu Ala val Phe Gin Ser Ala Thr Lys lie lie Ala 
50 55 60 
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Leu Asn Lys Arg Trp Gin Leu Ala Leu Tyr Lys Gly Phe Gin Phe lie 
65 70 75 80 

Cys Asn Leu Leu Leu Leu Phe val Thr lie Tyr Ser His Leu Leu Leu 
85 90 95 

val Ala Ala Gly Met Glu Ala Gin Phe Leu Tyr Leu Tyr Ala Leu lie 
100 105 110 

Tyr Phe Leu Gin Cys lie Asn Ala Cys Arg lie lie Met Arg Cys Trp 
115 120 125 

Leu cys Trp Lys Cys Lys ser Lys Asn Pro Leu Leu Tyr Asp Ala Asn 
130 135 140 

Tyr Phe Val cys Trp His Thr His Asn Tyr Asp Tyr cys lie Pro Tyr 
145 150 155 160 

Asn ser Val Thr Asp Thr lie val val Thr Glu Gly Asp Gly lie ser 
165 170 175 

Thr Pro Lys Leu Lys Glu Asp Tyr Gin lie Gly Gly Tyr ser Glu Asp 
180 185 190 

Arg His ser Gly val Lys Asp Tyr val val val His Gly Tyr Phe Thr 
195 200 205 

Glu val Tyr Tyr Gin Leu Glu ser Thr Gin lie Thr Thr Asp Thr Gly 
210 215 220 

lie Glu Asn Ala Thr Phe Phe lie Phe Asn Lys Leu val Lys Asp Pro 
225 230 235 240 

Pro Asn Val Gin lie His Thr lie Asp Gly ser ser Gly val Ala Asn 
245 250 255 

Pro Ala Met Asp pro lie Tyr Asp Glu Pro Thr Thr Thr Thr ser val 
260 265 270 

Pro Leu 



<210> 11 
<211> 1096 
<212> DNA 
<213> CORONAVIRUS 
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<220> 

<221> CDS 

<222> C558)..C1019) 

<223> 



<400> 11 
tcttacttta 


ttgcatgact agttgttgca 


gttgcctcaa 


gggtgcatgc 


tcttgtggtt 


60 


cttgctgcaa 


gtttgatgag gatgactctg 


agecagttet 


caagggtgtc 


aaattacatt 


120 


acacataaac 


gaacttatgg atttgtttat 


gagatttttt 


actcttggat 


caattactgc 


180 


acagccagta 


aaaattgaca atgcttctcc 


tgcaagtact 


gttcatgeta 


cagcaacgat 


240 


accgctacaa 


gcctcactcc ctttcggatg 


gcttgttatt 


ggcgttgcat 


ttcttgctgt 


300 


ttttcagagc 


gctaccaaaa taattgcgct 


caataaaaga 


tggcagctag 


ccctttataa 


360 


gggcttccag 


ttcatttgca atttactgct 


gctatttgtt 


accatctatt 


cacatctttt 


420 


gcttgtcgct 


gcaggtatgg aggcgcaatt 


tttgtacctc 


tatgecttga 


tatattttct 


480 


acaatgcatc 


aacgcatgta gaattattat 


gagatgttgg 


ctttgttgga 


agtgcaaatc 


540 


caagaaccca 


ttacttt atg atg cca act act ttg ttt get gqc 
Met Met pro Thr Thr Leu Phe Ala Gly 
1 5 


aca cac 
Thr His 
10 


590 



ata act atg act act gta tac cat ata aca gtg tea cag ata caa ttg 638 
lie Thr Met Thr Thr Val Tyr His lie Thr val Ser Gin lie Gin Leu 
15 20 25 

teg tta ctg aag gtg acg gca ttt caa cac caa aac tea aag aag act 686 
Ser Leu Leu Lys Val Thr Ala Phe Gin His Gin Asn ser Lys Lys Thr 
30 35 40 

ace aaa ttg gtg gtt att ctg agg ata gqc act cag gtg tta aag act 734 
Thr Lys Leu val val lie Leu Arg He Gly Thr Gin Val Leu Lys Thr 
45 50 55 

atg teg ttg tac atg get att tea ccg aag ttt act acc age ttg agt 782 
Met ser Leu Tyr Met Ala lie Ser Pro Lys Phe Thr Thr Ser Leu ser 
60 65 70 75 

eta cac aaa tta eta cag aca ctg gta ttg aaa atg eta cat tct tea 830 
Leu His Lys Leu Leu Gin Thr Leu Val Leu Lys Met Leu His Ser ser 
80 85 90 

tct tta aca age ttg tta aag acc cac cga atg tgc aaa tac aca caa 878 
Ser Leu Thr ser Leu Leu Lys Thr His. Arg Met Cys Lys Tyr Thr Gin 
95 100 105 

teg acg get ctt cag gag ttg eta ate cag caa tgg ate caa ttt atg 926 
Ser Thr Ala Leu Gin Glu Leu Leu He Gin Gin Trp lie Gin Phe Met 
110 115 120 

atg age cga cga cga eta eta gcg tgc ctt tgt aag cac aag aaa gtg 974 
Met ser Arg Arg Arg Leu Leu Ala cys Leu Cys Lys His Lys Lys val 
125 " 130 135 

agt acg aac tta tgt act cat teg ttt egg aag aaa cag gta cgt 1019 
ser Thr Asn Leu cys Thr His Ser Phe Arg Lys Lys Gin Val Arg 
140 145 150 
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taatagttaa tagcgtactt ctttttcttg ctttcgtggt attcttgcta gtcacactag 1079 
ccatccttac tgcgctt log6 

<210> 12 

<211> 154 

<212> PRT 

<213> CORONAVIRUS 

<400> 12 

Met Met Pro itir Thr Leu Phe Ala Gly Thr His He Thr Met Thr Thr 
15 10 15 

val Tyr His lie Thr val ser Gin He Gin Leu ser Leu Leu Lys Val 
20 25 30 

Thr Ala Phe Gin His Gin Asn ser Lys Lys Thr Thr Lys Leu val val 
35 40 45 

He Leu Arg lie Gly Thr Gin Val Leu Lys Thr Met ser Leu Tyr Met 
50 55 60 

Ala lie ser Pro Lys Phe Thr Thr Ser Leu ser Leu His Lys Leu Leu 
" 70 75 80 

Gin Thr Leu Val Leu Lys Met Leu His ser ser Ser Leu Thr ser Leu 
85 90 95 

Leu Lys Thr His Arg Met cys Lys Tyr Thr Gin Ser Thr Ala Leu Gin 
100 105 110 

Glu Leu Leu lie Gin Gin Trp He Gin Phe Met Met Ser Arg Arg Arq 
115 120 125 

Leu Leu Ala Cys Leu Cys Lys His Lys Lys Val ser Thr Asn Leu cys 
WO 135 140 

Thr His ser Phe Arg Lys Lys Gin Val Arg 
145 150 

<210> 13 

<211> 332 

<212> DNA 

<213> CORONAVIRUS 
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<220> 

<221> CDS 

<222> (36).. (263) 

<223> 



<400> 13 

tgcctttgta agcacaagaa agtgagtacg aactt atg tac tea ttc gtt teg 53 

Met Tyr Ser Phe Val Ser 
1 5 

gaa gaa aca ggt acg tta ata gtt aat age gta ctt ctt ttt ctt get 101 
Glu Glu Thr Gly Thr Leu lie val Asn Ser Val Leu Leu phe Leu Ala 
10 15 20 

ttc gttj gta ttc ttg eta gtc aca eta gee ate ctt act gcg ctt cga 149 



Phe val Val Phe Leu Leu Val Thr Leu Ala lie Leu Thr Ala Leu Arg 
25 30 35 

ttg tgt gcg tac tgc tgc aat att gtt aac gtg agt tta gta aaa cca 
Leu cys Ala Tyr Cys cys Asn lie Val Asn Val Ser Leu Val Lys Pro 
40 45 50 



197 



acg gtt tac gtc tac teg cgt gtt aaa aat ctg aac tct tct gaa gqa 245 
Thr Val Tyr Val Tyr Ser Arg val Lys Asn Leu Asn ser ser Glu Gly 
55 60 65 . 70 

gtt cct gat ctt ctg gtc taaacgaact aactattatt attattctgt 293 
Val pro Asp Leu Leu val 
75 

ttggaacttt aacattgett atcatggcag acaaeggta 332 

<210> 14 

<211> 76 

<212> PRT 

<213> CORONAVIRUS 



<400> 14 

Met Tyr ser Phe val ser Glu Glu Thr Gly Thr Leu lie Val Asn ser 
1 5 10 15 

Val Leu Leu Phe Leu Ala Phe Val Val -Phe Leu Leu Val Thr Leu Ala 
20 25 30 

lie Leu Thr Ala Leu Arg Leu cys Ala Tyr cys cys Asn lie Val Asn 
35 40 45 

Val ser Leu Val Lys Pro Thr Val Tyr Val Tyr Ser Arg val Lys Asn 
50 55 60 

Leu Asn Ser ser Glu Gly val Pro Asp Leu Leu Val 
65 70 75 
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<210> 


15 


<211> 


332 


<212> 


DNA 


<213> 


CORONAVIRUS 


<400> 


15 



__„_i agtgagtacg aacttatgta ctcattcgtt tcggaagaaa 60 

caggtacgtt aatagttaat agcgtacttc tttttcttgc tttcgtggta ttcttgctag 120 

tcacactagc catccttact gcgcttcgat tgtgtgcgta ctgctgcaat attgttaacg 180 

tgagtttagt aaaaccaacg gtttacgtct actcgcgtgt taaaaatctg aactcttctg 240 

aaggagttcc tgatcttctg gtctaaacga actaactatt attattattc tgtttggaac 300 

tttaacattg cttatcatgg cagacaacgg ta 332 

<210> 16 

<211> 708 

<212> DNA 

<213> CORONAVIRUS 

<220> 

<221> CDS 

<222> (41) . . (703) 

<223> 

<400> 16 

tattattatt attctgtttg gaactttaac attgcttatc atg gca gac aac ggt 55 

Met Ala Asp Asn Gly 
1 5 

act att acc gtt gag gag ctt aaa caa etc ctg gaa caa tgg aac eta 103 
Thr lie Thr Val Glu Glu Leu Lys Gin Leu Leu Glu Gin Trp Asn Leu 
10 15 20 

gta ata ggt ttc eta ttc eta gee tgg att atg tta eta caa ttt gee 151 
Val lie Gly Phe Leu Phe Leu Ala Trp lie Met Leu Leu Gin Phe Ala 
25 30 35 

tat tct aat egg aac agg ttt ttg tac ata ata aag ctt gtt ttc etc 199 
Tyr ser Asn Arg Asn Arg Phe Leu Tyr lie lie Lys Leu val Phe Leu 
40 ~ 45 50 

tgg etc ttg tgg cca gta aca ctt get tgt ttt gtq ctt get get gtc 247 
Trp Leu Leu Trp Pro Val Thr Leu Ala cys Phe val Leu Ala Ala val 
K 55 60 65 

tac aga att aat tgg gtg act ggc ggg att gcg att gca atg get tgt 295 
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T yr Arg lie Asn Trp val Thr Gly Gly He Ala He Ala Met Ala grs 

HJ © W S 5S 25 SS 5? SS S3 Si 3? SS M S§ 



90 



■m-i- nrt rat acc cac tea atg tag tea ttc aac cca gaa aca aac att 
Phe Ala A?g Thr Arg ier Me? Trp Ser Phe Asn Pro Glu Thr Asn He 
105 110 xx:> 

ss s ss «a SS SS 38 fff «? x?S «3 SS §| S8 SS SS? 

120 125 X;JU 

na , aat . aaa ct t ate att ggt get gtg ate att cgt ggt cac ttg cga 
ilS 11? GlS 51 val lie Gly Xla vaT He He Arg Gly His Leu Arg 
135 140 

atn nrr a03 rac tec eta qqg cgc tgt gac att aag gac ctg cca aaa 
Me? Ala Gly 5is Ier Leu 8?? A?g Cys Xsp lie Lys Asp Leu Pro Lys 

nan ate act ata act aca tea cga acg ctt tct tat tac aaa tta gga 
SlS lie Thr V?f Ala Thr ser Arg ThF Leu ser Tyr Tyr Lys Leu Gly 
170 175 

fis is? s?§ s?s «b as ?ss is s as as ss ss §} ss s?s 



tar rat att naa aac tat aaa tta aat aca gac cac gee ggt age aac 
TV? A?g lie Gl? As*n Tyr Lys Leu Asn Thr Asp His Ala Gly Ser Asn 
' 200 205 210 



gac aat att get ttg eta gta cag taagt 
Asp Asn lie Ala Leu Leu Val Gin 
215 220 



<210> 17 

<211> 221 

<212> PRT 

<213> CORONAVIRUS 



<400> 17 

Met Ala A . 
1 .5 



Met Ala Asp Asn Gly Thr He Thr val Glu Glu Leu Lys Gin Leu Leu 



Glu Gin Trp Asn Leu val He Gly Phe Leu Phe Leu Ala Trp He Met 
20 25 3U 

Leu Leu Gin Phe Ala Tyr Ser Asn Arg Asn Arg Phe Leu Tyr He He 
35 40 45 

Lys Leu val Phe Leu Trp Leu Leu Trp Pro val Thr Leu Ala cys Phe 
50 55 60 
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Val Leu Ala Ala val Tyr Arg lie Asn Trp val Thr Gly Gly lie Ala 
65 70 75 80 



lie Ala Met Ala Cys lie Val Gly Leu Met Trp Leu ser Tyr Phe Val 
85 90 95 

Ala Ser Phe Arg Leu Phe Ala Arg Thr Arg ser Met Trp ser Phe Asn 
100 105 ~ 110 

Pro Glu Thr Asn lie Leu Leu Asn val Pro Leu Arg Gly Thr lie Val 
115 120 125 

Thr Arg Pro Leu Met Glu Ser Glu Leu Val He Gly Ala Val lie He 
130 135 140 

Arg Gly His Leu Arg Met Ala Gly His Ser Leu Gly Arg cys Asp lie 
145 150 155 160 

Lys Asp Leu Pro Lys Glu He Thr val Ala Thr Ser Arg Thr Leu Ser 
165 170 " 175 

Tyr Tyr Lys Leu Gly Ala Ser Gin Arg Val Gly Thr Asp Ser Gly Phe 
180 185 190 

Ala Ala Tyr Asn Arg Tyr Arg lie Gly Asn Tyr Lys Leu Asn Thr Asp 
195 200 205 

His Ala Gly Ser Asn Asp Asn lie Ala Leu Leu Val Gin 
210 215 220 

<210> 18 

<211> 769 

<212> DNA 

<213> CORONAVIRUS 

<400> 18 

cctgatcttc tggtctaaac gaactaacta ttattattat tctgtttgga actttaacat 60 

tgcttatcat ggcagacaac ggtactatta ccgttgagga gcttaaacaa ctcctggaac 120 

aatggaacct agtaataggt ttcctattcc tagcctggat tatgttacta caatttgcct 180 

attctaatcg gaacaggttt ttgtacataa taaagcttgt tttcctctgg ctcttgtggc 240 

cagtaacact tgcttgtttt gtgcttgctg ctgtctacag aattaattgg gtgactggcg 300 

ggattgcgat tgcaatggct tgtattgtag gcttgatgtg gcttagctac ttcgttgctt 360 

ccttcaggct gtttgctcgt acccgctcaa tgtggtcatt caacccagaa acaaacattc 420 

ttctcaatgt gcctctccgg gggacaattg tgaccagacc gctcatggaa agtgaacttg 480 

tcattggtgc tgtgatcatt cgtggtcact tgcgaatggc cggacactcc ctagggcgct 540 
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gtgacattaa ggacctgcca aaagagatca ctgtggctac atcacgaacg ctttcttatt 
acaaattagg agcgtcgcag cgtgtaggca ctgattcagg ttttgctgca tacaaccgct 
accgtattgg aaactataaa ttaaatacag accacgccgg tagcaacgac aatattgctt 
tgctagtaca gtaagtgaca acagatgttt catcttgttg acttccagg 



600 
660 
720 
769 



<210> 19 

<211> 1231 

<212> DNA 

<213> CORONAVIRUS 

?a?2Stattg gaaactataa attaaataca gaccacgccg gtagcaacga caatattgct 60 
ttgctagtac agtaagtgac aacagatgtt tcatcttgtt gacttccagg ttacaatagc 120 
agagatattg attatcatta tgaggacttt caggattgct atttggaatc ttgacgttat 180 
aataagttca atagtgagac aattatttaa gcctctaact aagaagaatt attcggagtt 240 
agatgatgaa gaacctatgg agttagatta tccataaaac gaacatgaaa attattctct 300 
tcctgacatt gattgtattt acatcttgcg agctatatca ctatcaggag tgtgttagag 360 
gtacgactgt actactaaaa gaaccttgcc catcaggaac atacgagggc aattcaccat 4 20 
ttcaccctct tgctgacaat aaatttgcac taacttgcac tagcacacac tttgcttttg 
cttgtgctga cggtactcga catacctatc agctgcgtgc aagatcagtt tcaccaaaac 
ttttcatcag acaagaggag gttcaacaag agctctactc gccacttttt ctcattgttg 
ctgctctagt atttttaata ctttgcttca ccattaagag aaagacagaa tgaatgagct 
cactttaatt gacttctatt tgtgcttttt agcctttctg ctattccttg ttttaataat 
gcttattata ttttggtttt cactcgaaat ccaggatcta gaagaacctt gtaccaaagt 
ctaaacgaac atgaaacttc tcattgtttt gacttgtatt tctctatgca gttgcatatg 
cactgtagta cagcgctgtg catctaataa acctcatgtg cttgaagatc cttgtaaggt 
acaacactag gggtaatact tatagcactg cttggctttg tgctctagga aaggttttac 
cttttcatag atggcacact atggttcaaa catgcacacc taatgttact atcaactgtc 1020 
aagatccagc tggtggtgcg cttatagcta ggtgttggta ccttcatgaa ggtcaccaaa 
ctgctgcatt tagagacgta cttgttgttt taaataaacg aacaaattaa aatgtctgat 
aatggacccc aatcaaacca acgtagtgcc ccccgcatta catttggtgg acccacagat 
tcaactgaca ataaccagaa tggaggacgc a 

<210> 20 
<211> 1242 
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480 
540 
600 
660 
720 
780 
840 
900 
960 



1080 
1140 
1200 
1231 



<212> DNA 

<213> CORONAVIRUS 



S226CAS108.ST25 



<400> 20 
gcatacaacc 


gctaccgtat tggaaactat 


aaattaaata 


cagaccacgc 


cggtagcaac 


60 


gacaatattg 


ctttgctagt acagtaagtg 


acaacagatg 


tttcatcttg 


ttgacttcca 


120 


ggttacaata 


gcagagatat tgattatcat 


tatgaggact 


ttcaggattg 


ctatttggaa 


180 


tcttgacgtt 


ataataagtt caatagtgag 


acagttattt 


aagcctctaa 


ctaagaagaa 


240 


ttattcggag 


ttagatgatg aagaacctat 


ggagttagat 


tatccataaa 


acgaacatga 


300 


aaattattct 


cttcctgaca ttgattgtat 


ttacatcttg 


cgagctatat 


cactatcagg 


360 


agtgtgttag 


aggtacgact gtactactaa 


aagaaccttg 


cccatcagga 


acatacgagg 


420 


gcaattcacc 


atttcaccct cttgctgaca 


ataaatttgc 


actaacttgc 


actagcacac 


480 


actttgcttt 


tgcttgtgct gacggtactc 


gacataccta 


tcagctgcgt 


gcaagatcag 


540 


tttcaccaaa 


acttttcatc agacaagagg 


aggttcaaca 


agagctctac tcgccacttt 


600 


ttctcattgt 


tgctgctcta gtatttttaa 


tactttgctt 


caccattaag 


agaaagacag 


660 


aatgaatgag 


ctcactttaa ttgacttcta 


tttgtgcttt 


ttagcctttc 


tgctattcct 


720 


Tig XT. LLddLd 


atnrttatta *t-3-t-+*1~"hrin"t""t" 

aT.gcT.Lai. xa lcit. ui-Lyy lc 




atccaggatc 


tagaagaacc 


780 


ttgtaccaaa 


gtctaaacga acatgaaact 


tctcattgtt 


ttgacttgta 


tttctctatg 


840 


cagttgcata 


tgcactgtag tacagcgctg 


tgcatctaat 


aaacctcatg 


tgcttgaaga 


900 


tccttgtaag 


gtacaacact aggggtaata 


cttatagcac 


tgcttggctt 


tgtgctctag 


960 


gaaaggtttt 


accttttcat agatggcaca 


ctatggttca 


aacatgcaca 


cctaatgtta 


1020 


ctatcaactg 


tcaagatcca gctggtggtg 


cgcttatagc 


taggtgttgg 


taccttcatg 


1080 


aaggtcacca 


aactgctgca tttagagacg 


tacttgttgt 


tttaaataaa 


cgaacgaatt 


1140 


aaaatgtctg 


ataatggacc ccaancaaac 


caacgtagtg 


ccccccgcat 


tacatttggt 


1200 


ggacccacag 


attcaactga caataaccag 


aatggaggac 


gc 




1242 



<210> 21 

<211> 1231 

<212> DNA 

<213> CORONAVIRUS 

<220> 

<221> CDS 

<222> (86) . . (274) 

<223> 
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^22gta?tg gaaactataa attaaataca gaccacgccg gtagcaacga caatattgct 60 
ttgctagtac agtaagtgac aacag atg ttt cat ctt gtt gac ttc cag gtt 112 

1 5 



aca ata aca qaq ata ttg att ate att atg agg act ttc agg att get 
Thr 111 Ala" G?§ lie Leu He He He Met Arg Thr Phe Arg He Ala 
10 15 20 " 

att too aat ctt qac gtt ata ata agt tea ata gtg aga caa tta ttt 
?le Tr? aS 25 Hp §a1 He lie sir ser He va? Arg Gin Leu Phe 
30 35 

aaa cct eta act aag aag aat tat teg gag tta gat gat gaa gaa cct 
lyl Prl til Thr Lys Lys Asn Tyr ser Glu Leu Asp Asp Glu Glu Pro 



160 



208 



256 



304 



atg gag tta gat tat cca taaaacgaac atgaaaatta ttctcttcct 
Met Glu Leu Asp Tyr Pro 
60 

gacattgatt gtatttacat ettgegaget atatcactat caggagtgtg ttagaggtac 364 
gactgtacta ctaaaagaac cttgcccatc aggaacatac gagggcaatt caccatttca 424 
ccctcttgct gacaataaat ttgeactaac ttgeactage acacactttg ettttgettg 484 
tgctgacggt actcgacata cctatcagct gcgtgcaaga tcagtttcac caaaactttt 544 
catcagacaa gaggaggttc aacaagagct ctactcgcca ctttttctca ttgttgctgc 604 
tctagtattt ttaatacttt gcttcaccat taagagaaag acagaatgaa tgagctcact 664 
ttaattgact tctatttgtg etttttagee tttctgetat tccttgtttt aataatgett 724 
attatatttt ggttttcact cgaaatccag gatctagaag aaccttgtac caaagtctaa 784 
acgaacatga aacttctcat tgttttgact tgtatttctc tatgcagttg catatgeact 
gtagtacagc gctgtgcatc taataaacct catgtgcttg aagatccttg taaggtacaa 
cactaggggt aatacttata geactgettg gctttgtgct ctaggaaagg ttttaccttt 
tcatagatgg cacactatgg ttcaaacatg cacacctaat gttactatca actgtcaaga 
tccagctggt ggtgcgctta tagctaggtg ttggtacctt catgaaggtc accaaactgc 1084 
tgcatttaga gaegtacttg ttgttttaaa taaacgaaca aattaaaatg tctgataatg 1144 
gaccccaatc aaaccaacgt agtgcccccc gcattacatt tggtggaccc acagattcaa 1204 
ctgacaataa ccagaatgga ggacgea 

<210> 22 

<211> 63 

<212> PRT 

<213> CORONAVIRUS 



844 
904 
964 
1024 



1231 
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<400> 22 

Met Phe His Leu val Asp Phe Gin Val Thr lie Ala Glu lie Leu lie 
1 5 10 15 

lie lie Met Arg Thr Phe Arg lie Ala lie Trp Asn Leu Asp val lie 
20 ~ 25 30 

lie ser Ser lie Val Arg Gin Leu Phe Lys Pro Leu Thr Lys Lys Asn 
35 40 45 

Tyr Ser Glu Leu Asp Asp Glu Glu Pro Met Glu Leu Asp Tyr Pro 
50 55 60 

<210> 23 

<211> 1231 

<212> DNA 

<213> CORONAVIRUS 



<220> 

<221> CDS 

<222> (285).. (650) 

<223> 



<400> 23 

taccgtattg gaaactataa attaaataca gaccacgccg gtagcaacga caatattgct 60 

ttgctagtac agtaagtgac aacagatgtt tcatcttgtt gacttccagg ttacaatagc 120 

agagatattg attatcatta tgaggacttt caggattgct atttggaatc ttgacgttat 180 

aataagttca atagtgagac aattatttaa gcctctaact aagaagaatt attcggagtt 240 

agatgatgaa gaacctatgg agttagatta tccataaaac gaac atg aaa att att 296 

Met Lys lie lie 
1 

etc ttc ctg aca ttg att gta ttt aca tct tgc gag eta tat cac tat 344 
Leu Phe Leu Thr Leu lie val Phe Thr ser Cys Glu Leu Tyr His Tyr 
5 10 15 20 

cag gag tgt gtt aga gat acg act gta eta eta aaa gaa cet tgc cca 392 
Gin Glu Cys val Arg Gly Thr Thr Val Leu Leu Lys Glu Pro cys pro 
25 30 35 

tea gga aca tac gag ggc aat tea cca ttt cac cet ctt get gac aat 440 
Ser Gly Thr Tyr Glu Gly Asn ser Pro Phe His Pro Leu Ala Asp Asn 
40 45 50 

aaa ttt gca eta act tgc act age aca cac ttt get ttt get tgt get 488 
Lys Phe Ala Leu Thr cys Thr Ser Thr His Phe Ala Phe Ala Cys Ala 
55 60 65 

gac ggt act cga cat acc tat cag ctg cgt gca aga tea gtt tea cca 536 
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Asp Gly Thr Arg His Thr Tyr Gin Leu Arg Ala Arg ser val Ser Pro 
70 75 80 

aaa ctt ttc ate aga caa gag gag gtt caa caa gag etc tac teg cca 584 
Lys Leu Phe lie Arg Gin Glu Glu val Gin Gin Glu Leu Tyr Ser Pro 
SS 90 95 100 

ctt ttt etc att gtt get get eta gta ttt tta ata ctt tgc ttc acc 632 
Leu Phe Leu lie val Ala Ala Leu Val Phe Leu lie Leu cys Phe Thr 
105 110 115 

att aag aga aag aca gaa tgaatgagct cactttaatt gacttctatt 680 
lie Lys Arg Lys Thr Glu 
120 

tgtgcttttt agectttctg ctattccttg ttttaataat gcttattata ttttggtttt 740 

cactcgaaat ccaggatcta gaagaacctt gtaccaaagt ctaaacgaac atgaaacttc 800 

tcattgtttt gacttgtatt tetctatgea gttgcatatg cactgtagta cagcgctgtg 860 

catctaataa acctcatgtg cttgaagatc cttgtaaggt acaacactag gggtaatact 920 

tatagcactg cttggctttg tgctctagga aaggttttac cttttcatag atggcacact 980 

atggttcaaa catgcacacc taatgttact atcaactgtc aagatccagc tggtggtgcg 1040 

cttatagcta ggtgttggta ccttcatgaa ggtcaccaaa ctgetgeatt tagagaegta 1100 

cttgttgttt taaataaacg aacaaattaa aatgtctgat aatggacccc aatcaaacca 1160 

aegtagtgee ccccgcatta catttggtgg acccacagat tcaactgaca ataaccagaa 1220 

tggaggaege a 1231 

<210> 24 

<211> 122 

<212> PRT 

<213> CORONAVIRUS 

<400> 24 

Met Lys lie lie Leu Phe Leu Thr Leu lie val Phe Thr Ser cys Glu 
15 10 15 

Leu Tyr His Tyr Gin Glu cys Val Arg Gly Thr Thr val Leu Leu Lys 
20 25 30 

Glu Pro cys Pro Ser Gly Thr Tyr Glu Gly Asn Ser Pro Phe His Pro 
35 40 45 

Leu Ala Asp Asn Lys Phe Ala Leu Thr Cys Thr ser Thr His Phe Ala 
50 55 60 

Phe Ala cys Ala Asp Gly Thr Arg His Thr Tyr Gin Leu Arg Ala Arg 
65 70 75 80 
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ser val Ser pro Lys Leu Phe He Arg Gin Glu Glu Val Gin Gin Glu 
85 90 95 

Leu Tyr Ser Pro Leu Phe Leu He Val Ala Ala Leu Val Phe Leu lie 
■LOO 105 110 

Leu cys Phe Thr lie Lys Arg Lys Thr Glu 
115 120 

<210> 25 

<211> 1231 

<212> DNA 

<213> CORONAVIRUS 



<220> 

<221> CDS 

<222> (650) . . C781) 

<223> 

<400> 25 

taccgtattg gaaactataa attaaataca gaccacgccg gtagcaacga caatattgct 60 

ttgctagtac agtaagtgac aacagatgtt tcatcttgtt gacttccagg ttacaatagc 120 

agagatattg attatcatta tgaggacttt caggattgct atttggaatc ttgacgttat 180 

aataagttca atagtgagac aattatttaa gcctctaact aagaagaatt attcggagtt 240 

agatgatgaa gaacctatgg agttagatta tccataaaac gaacatgaaa attattctct 300 

tcctgacatt gattgtattt acatcttgcg agctatatca ctatcaggag tgtgttagag 360 

gtacgactgt actactaaaa gaaccttgcc catcaggaac atacgagggc aattcaccat 420 

ttcaccctct tgctgacaat aaatttgcac taacttgcac tagcacacac tttgcttttg 480 

cttgtgctga cggtactcga catacctatc agctgcgtgc aagatcagtt tcaccaaaac 540 

ttttcatcag acaagaggag gttcaacaag agctctactc gccacttttt ctcattgttg 600 

ctgctctagt atttttaata ctttgcttca ccattaagag aaagacaga atg aat gag 658 

Met Asn Glu 
1 

etc act tta att gac ttc tat ttg tgc ttt tta gec ttt eta eta ttr 7na 
Leu Thr Leu He Asp Phe Tyr Leu Cys Phe Leu Xla Phe 28 2! ?he 6 
3 10 15 

ctt gtt tta ata atg ctt att ata ttt taa ttt t-ra n-r naa a*/- , c . 
Leu val Leu He Me ? Leu He ill Phe Trp Pht ler 25 llS SJ £ 9 n 754 
^ 25 30 35 

SJ 22 ??S G ?u" SJ cys* ?S Ss 3 ?al C taaac 9 aaca tgaaacttct 80 l 
40 
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cattgttttg acttgtattt ctctatgcag ttgcatatgc actgtagtac agcgctgtgc 861 

atctaataaa cctcatgtgc ttgaagatcc ttgtaaggta caacactagg ggtaatactt 921 

atagcactgc ttggctttgt gctctaggaa aggttttacc ttttcataga tggcacacta 981 

tggttcaaac atgcacacct aatgttacta tcaactgtca agatccagct ggtggtgcgc 1041 

ttatagctag gtgttggtac cttcatgaag gtcaccaaac tgctgcattt agagacgtac 1101 

ttgttgtttt aaataaacga acaaattaaa atgtctgata atggacccca atcaaaccaa 1161 

cgtagtgccc cccgcattac atttggtgga cccacagatt caactgacaa taaccagaat 1221 
ggaggacgca 

<210> 26 

<211> 44 

<212> PRT 

<213> CORONAVIRUS 

<400> 26 

Met Asn Glu Leu Thr Leu He Asp Phe Tyr Leu Cys Phe Leu Ala Phe 
15 10 15 

Leu Leu Phe Leu val Leu lie Met Leu lie lie Phe Trp Phe ser Leu 
20 25 30 

Glu He Gin Asp Leu Glu Glu Pro Cys Thr Lys val 
35 40 

<210> 27 

<211> 1231 

<212> DNA 

<213> CORONAVIRUS 



<220> 

<221> "CDS 

<222> (791) . . C907) 

<223> 



<400> 27 

taccgtattg gaaactataa attaaataca 
ttgctagtac agtaagtgac aacagatgtt 
agagatattg attatcatta tgaggacttt 



gaccacgccg gtagcaacga caatattgct 60 

tcatcttgtt gacttccagg ttacaatagc 120 

caggattgct atttggaatc ttgacgttat 180 
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aataagttca atagtgagac aattatttaa gcctctaact aagaagaatt attcggagtt 240 

agatgatgaa gaacctatgg agttagatta tccataaaac gaacatgaaa attattctct 300 

tcctgacatt gattgtattt acatcttgcg agctatatca ctatcaggag tgtgttagag 360 

gtacgactgt actactaaaa gaaccttgcc catcaggaac atacgagggc aattcaccat 420 

ttcaccctct tgctgacaat aaatttgcac taacttgcac tagcacacac tttgcttttg 480 

cttgtgctga cggtactcga catacctatc agctgcgtgc aagatcagtt tcaccaaaac 540 

ttttcatcag acaagaggag gttcaacaag agctctactc gccacttttt ctcattgttg 600 

ctgctctagt atttttaata ctttgcttca ccattaagag aaagacagaa tgaatgagct 660 

cactttaatt gacttctatt tgtgcttttt agcctttctg ctattccttg ttttaataat 720 

gcttattata ttttggtttt cactcgaaat ccaggatcta gaagaacctt gtaccaaagt 780 

ctaaacgaac atg aaa ctt etc att gtt ttg act tgt att tct eta tqc 829 
Met Lys Leu Leu He val Leu Thr Cys lie Ser Leu Cys 
1 5 10 

cf^ ^ gC a ? a £ gc gta gt ? c ?9 C 9 C t 9* 9ca tct aat aaa cct cat 877 
Ser cys He Cys Thr val val Gin Arg cys Ala Ser Asn Lys Pro His 
15 20 25 

<£? °- aa ? at £ ct tgt aag gta caa cac taggggtaat acttatagca 927 
yal Leu Glu Asp Pro Cys Lys val Gin His 
30 35 

ctgcttggct ttgtgctcta ggaaaggttt taccttttca tagatggcac actatggttc 987 

aaacatgeae acctaatgtt actatcaact gtcaagatcc agctggtggt gegcttatag 1047 

ctaggtgttg gtaccttcat gaaggtcacc aaactgctgc atttagagac gtacttgttg 1107 

ttttaaataa acgaacaaat taaaatgtct gataatggac cccaatcaaa ecaaegtagt 1167 

gccccccgca ttacatttgg tggacccaca gattcaactg acaataacca gaatggagga 1227 

cgea 1231 

<210> 28 

<211> 39 

<212> PRT 

<213> CORONAVIRUS 

<400> 28 

Met Lys Leu Leu He Val Leu Thr cys lie Ser Leu Cys Ser Cys He 
1 5 10 15 

Cys Thr Val yal Gin Arg cys Ala Ser Asn Lys Pro His Val Leu Glu 
20 25 30 



Asp Pro cys Lys Val Gin His 
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<210> 29 

<211> 1231 

<212> DNA 

<213> CORONAVIRUS 

<220> 

<221> CDS 

<222> (876) . . (1127) 

<223> 



<400> 29 
taccgtattg 


gaaactataa 


attaaataca gaccacgccg 


gtagcaacga 


caatattgct 


60 


ttgctagtac 


agtaagtgac 


aacagatgtt tcatcttgtt 


gacttccagg 


ttacaatagc 


120 


agagatattg 


attatcatta 


tgaggacttt caggattgct 


atttggaatc 


ttgacgttat 


180 


aataagttca 


atagtgagac 


aattatttaa gcctctaact 


aagaagaatt 


attcggagtt 


240 


agatgatgaa 


gaacctatgg 


agttagatta tccataaaac 


gaacatgaaa 


attattctct 


300 


tcctgacatt 


gattgtattt 


acatcttgcg agctatatca 


ctatcaggag 


tgtgttagag 


360 


gtacgactgt 


actactaaaa 


gaaccttgcc catcaggaac 


atacgagggc 


aattcaccat 


420 


ttcaccctct 


tgctgacaat 


aaatttgcac taacttgcac 


tagcacacac 


tttgcttttg 


480 


cttgtgctga 


cggtactcga 


catacctatc agctgcgtgc 


aagatcagtt 


tcaccaaaac 


540 


ttttcatcag 


acaagaggag 


gttcaacaag agctctactc 


gccacttttt 


ctcattgttg 


600 


ctgctctagt 


atttttaata 


ctttgcttca ccattaagag 


aaagacagaa 


tgaatgagct 


660 


cactttaatt 


gacttctatt 


tgtgcttttt agcctttctg 


ctattccttg 


ttttaataat 


720 


gcttattata 


ttttggtttt 


cactcgaaat ccaggatcta 


gaagaacctt 


gtaccaaagt 


780 


ctaaacgaac 


atgaaacttc 


tcattgtttt gacttgtatt 


tctctatgca 


gttgcatatg 


840 


cactgtagta 


cagcgctgtg 


catctaataa acctc atg tgc ttg aag 
Met Cys Leu Lys 


ate ctt 
lie Leu 
5 


893 



gta agg tac aac act agg gqt aat act tat age act get tgg ctt tgt 941 
val Arg Tyr Asn Thr Arg Gly Asn Thr Tyr Ser Thr Ala Trp Leu Cys 
10 * 15 20 



get eta gqa aag gtt tta cct ttt cat aga tgg cac act atg gtt caa 989 
Ala Leu Gly Lys val Leu Pro Phe His Arg Trp His Thr Met Val Gin 
25 30 35 

aca tgc aca cct aat gtt act ate aac tgt caa gat cca get gqt gqt 1037 
Thr cys Thr Pro Asn val Thr. lie Asn cys Gin Asp Pro Ala Gly Gly 
40 45 50 

gcg ctt ata get agg tgt tgg tac ctt cat gaa ggt cac caa act get 1085 
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Ala Leu lie Ala Arg Cys Trp Tyr Leu His Glu Gly His Gin Thr Ala 
55 60 65 70 

gca ttt aga gac gta ctt gtt gtt tta aat aaa cga aca aat 1127 
Ala Phe Arg Asp val Leu Val val Leu Asn Lys Arg Thr Asn 
75 80 

taaaatgtct gataatggac cccaatcaaa ccaacgtagt gccccccgca ttacatttgg 1187 

tggacccaca gattcaactg acaataacca gaatggagga cgca 1231 



<210> 


30 


<211> 


84 


<212> 


PRT 


<213> 


CORONAVIRUS 


<400> 


30 



Met Cys Leu Lys He Leu Val Arg Tyr Asn Thr Arg Gly Asn Thr Tyr 
1 5 10 15 

ser Thr Ala Trp Leu Cys Ala Leu Gly Lys val Leu Pro Phe His Arg 
20 25 30 

Trp His Thr Met Val Gin Thr Cys Thr Pro Asn Val Thr lie Asn cys 
35 40 45 

Gin Asp Pro Ala Gly Gly Ala Leu lie Ala Arg cys Trp Tyr Leu His 
50 55 60 

Glu Gly His Gin Thr Ala Ala Phe Arg Asp val Leu val val Leu Asn 
65 70 75 80 

Lys Arg Thr Asn 



<210> 31 

<211> 21221 

<212> DNA 

<213> CORONAVIRUS 

<400> 31 

atggagagcc ttgttcttgg tgtcaacgag aaaacacacg tccaactcag tttgcctgtc 60 

cttcaggtta gagacgtgct agtgcgtggc ttcggggact ctgtggaaga ggccctatcg 120 

gaggcacgtg aacacctcaa aaatggcact tgtggtctag tagagctgga aaaaggcgta 180 

ctgccccagc ttgaacagcc ctatgtgttc attaaacgtt ctgatgcctt aagcaccaat 240 

cacggccaca aggtcgttga gctggttgca gaaatggacg gcattcagta cggtcgtagc 300 
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ggxaxaacac xyyydyLd<_L 


mt*nr rarat 

V-y LyLUaLu L. 


gtgggcgaaa 


ccccaattgc 


ataccacaat: 


360 


y t lllxct-Xl y LaayaaLyy 


l ctct taayyya 


gccggtggtc 


atagctatgg 


catcaatcta 


420 


aagxc X La. Xg dXXXdyyLyd 


rnanrttnnr 

<-y<*y*- *-yy 


actgatccca ttgaagatta 


Xaaacaaaac 


480 


xggaacacxa agcaxggcag 


xyy ty v.a.c ll. 


cgtgaactca 


ctegtgaget 


v-cxo L yy a yy 


540 


gcagxcacxc gcxaxgxcga 


CaaCaaiXtL 


tgtggcccag 


atgggtaccc 




600 


axcaaagatx xxcxcgcacg 


cgcgggcaag 


tcaatgtgca 


ctctttccga 


auciav. L tya l 


660 


tacatxgagt cgaagagagg 


xgxcxacxgc 


tgccgtgacc 


atgagcatga 


a a i - 1" n rr t* n n 
<a.«. l uyLC ^yy 


770 


ttcactgagc gcxcxgaxaa 


gagcxacgag 


caccagacac 


ccttcgaaat 


l*aanafi1*nrr 
Lcictyciy ty^-v. 


780 


aagaaattitg acactttcaa 


aggggaa xgc 


ccaaagtttg tgtttcctct 






gtcaaagnca ttcaaccacg 


xgxxgaaaag 


aaaaagactg 


agggtttcat 






cgctctgtgt accctgttgc 


axctccacag 


gagtgtaaca 


atatgeaett 


y LL LaLL L uy 




axgaaaxgta axeaxxgega 


xgaag xxxca 


tggcagacgt gegactttet 


n a a a n #~ r" a r**t* 




xgxgaacaxx gxggcacxga 


aaaxxxagxx 


axxgaaggac 


cxacxacaxg 


■f- nnri"t*p rrta 
uyyy l ci i_ v_ i_ a. 




ccxacxaaxg cxgxagxgaa 


ddLyCLd Lg U 


cctgcctgtc 


aagacccaga 


yd u LyyaLL v. 


1140 


gagcaxagtg xxgcagaxxa 


xcacaaccac 


tcaaacattg 


aaactcgact 


LLyLaayyya 


1 7O0 


ggtaggacta gatgttttgg 


aggcxgxgxg 


tttgcctatg 


ttggctgcta 


Lddtadyty L 


1 PfiO 


gcctactggg ttcctcgtgc 


xagxgcxgax 


attggctcag 


gecatactgg 


Ca.xxat.xgg x 




gacaatgtgg agaccttgaa 


"tgaggatctc 


cttgagatac 


tgagtcgtga 


dCgxgXXddC 


JL jOU 


attaacattg ttggcgattt 


tcatttgaat 


gaagaggttg 


ccatcatttt 


ggcaxcxxxc 




tetgettcta caagtgeett 


tattgacact 


ataaagagtc 


ttgattacaa 


gxcxxxcaaa 




accattgttg agtcctgegg 


taactataaa 


gttaccaagg 


gaaagcccgt 


aaaaggligct 


1 CCA 


tggaacattg gacaacagag 


atcagtttta 


acaccactgt 


gtggttttcc 


cxcacaggcx 


1 OA 


gctggtgtrta tcagatcaat 


xxxxgegege 


acacttgatg 


cagcaaacca 


cxcaaxxccx 


xDoU 


gatttgeaaa gagcagctgt 


caccaxacxx 


gatggtattt 


ctgaacagtc 


axxdcgxcxx 




gxcgacgcca xggxxxaxac 


xxcagaccxg 


ctcaccaaca 


gtgtcattat 


Ld Lyy Ld La L 


1 Ron 


gxaactggxg gxcxxgxaca 


acagaexxcx 


cagtggttgt 


ctaatctttt 


y yy Lat LaL u 


1 ft 60 


gttrgaaaaac "teaggectat 


exxxgaaxgg 


attgaggega 


aacttagtgc 


dggagxxydd 


1 Q70 


tttctcaagg atgcttggga 


gat:t:ctcaaa 


tttctcatta 


caggtgtttt 


xgacaxcgxc 




aagggtcaaa tacaggttgc 


ttcaganaac 


atcaaggatt 


gtgtaaaatg 


exxcaxxgax 




gttgttaaca aggcactcga 


aatgtgcatt 


gatcaagtca 


etategctgg 


cgcaaagttg 


2100 


cgatcactca acttaggtga 


agtcttcatc 


gctcaaagca agggacttta 


ccgtcagtgt 


2160 


atacgtggca aggagcagct 


gcaactactc 


atgectctta 


aggcaccaaa 


agaagtaacc 


2220 


tttcttgaag gtgattcaca 


tgacacagta 


cttacctctg 


aggaggttgt 


tctcaagaac 


2280 


ggtgaactcg aagcactcga 


gacgcccgtt 


gatagcttca 


caaatggagc 


tatcgttggc 


2340 
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acaccagtct gtgtaaatgg cctcatgctc ttagagatta aggacaaaga acaatactgc 2400 

gcattgtctc ctggtttact ggctacaaac aatgtctttc gcttaaaagg gggtgcacca 2460 

attaaaggtg taacctttgg agaagatact gtttgggaag ttcaaggtta caagaatgtg 2520 

agaatcacat ttgagcttga tgaacgtgtt gacaaagtgc ttaatgaaaa gtgctctgtc 2580 

tacactgttg aatccggtac cgaagttact gagtttgcat gtgttgtagc agaggctgtt 2640 

gtgaagactt tacaaccagt ttctgatctc cttaccaaca tgggtattga tcttgatgag 2700 

tggagtgtag ctacattcta cttatttgat gatgctggtg aagaaaactt ttcatcacgt 2760 

atgtattgtt ccttttaccc tccagatgag gaagaagagg acgatgcaga gtgtgaggaa 2820 

gaagaaattg atgaaacctg tgaacatgag tacggtacag aggatgatta tcaaggtctc 2880 

cctctggaat ttggtgcctc agctgaaaca gttcgagttg aggaagaaga agaggaagac 2940 

tggctggatg atactactga gcaatcagag attgagccag aaccagaacc tacacctgaa 3000 

gaaccagtta atcagtttac tggttattta aaacttactg acaatgttgc cattaaatgt 3060 

gttgacatcg ttaaggaggc acaaagtgct aatcctatgg tgattgtaaa tgctgctaac 3120 

atacacctga aacatggtgg tggtgtagca ggtgcactca acaaggcaac caatggtgcc 3180 

atgcaaaagg agagtgatga ttacattaag ctaaatggcc ctcttacagt aggagggtct 3240 

tgtttgcttt ctggacataa tcttgctaag aagtgtctgc atgttgttgg acctaaccta 3300 

aatgcaggtg aggacatcca gcttcttaag gcagcatatg aaaatttcaa ttcacaggac 3360 

atcttacttg caccattgtt gtcagcaggc atatttggtg ctaaaccact tcagtcttta 3420 

caagtgtgcg tgcagacggt tcgtacacag gtttatattg cagtcaatga caaagctctt 3480 

tatgagcagg ttgtcatgga ttatcttgat aacctgaagc ctagagtgga agcacctaaa 3540 

caagaggagc caccaaacac agaagattcc aaaactgagg agaaatctgt cgtacagaag 3600 

cctgtcgatg tgaagccaaa aattaaggcc tgcattgatg aggttaccac aacactggaa 3660 

gaaactaagt ttcttaccaa taagttactc ttgtttgctg atatcaatgg taagctttac 3720 

catgattctc agaacatgct tagaggtgaa gatatgtctt tccttgagaa ggatgcacct 3780 

tacatggtag gtgatgttat cactagtggt gatatcactt gtgttgtaat accctccaaa 3840 

aaggctggtg gcactactga gatgctctca agagctttga agaaagtgcc agttgatgag 3900 

tatataacca cgtaccctgg acaaggatgt gctggttata cacttgagga agctaagact 3960 

gctcttaaga aatgcaaatc tgcattttat gtactacctt cagaagcacc taatgctaag 4020 

gaagagattc taggaactgt atcctggaat ttgagagaaa tgcttgctca tgctgaagag 4080 

acaagaaaat taatgcctat atgcatggat gttagagcca taatggcaac catccaacgt 4140 

aagtataaag gaattaaaat tcaagagggc atcgttgact atggtgtccg attcttcttt 4200 

tatactagta aagagcctgt agcttctatt attacgaagc tgaactctct aaatgagccg 4260 

cttgtcacaa tgccaattgg ttatgtgaca catggtttta atcttgaaga ggctgcgcgc 4320 

tgtatgcgtt ctcttaaagc tcctgccgta gtgtcagtat catcaccaga tgctgttact 4380 
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acatataatg gatacctcac ttcgtcatca aagacatctg aggagcactt tgtagaaaca 4440 

gtttctttgg ctggctctta cagagattgg tcctattcag gacagcgtac agagttaggt 4500 

gttgaatttc ttaagcgtgg tgacaaaatt gtgtaccaca ctctggagag ccccgtcgag 4560 

tttcatcttg acggtgaggt tctttcactt gacaaactaa agagtctctt atccctgcgg 4620 

gaggttaaga ctataaaagt gttcacaact gtggacaaca ctaatctcca cacacagctt 4680 

gtggatatgt ctatgacata tggacagcag tttggtccaa catacttgga tggtgctgat 4740 

gttacaaaaa ttaaacctca tgtaaatcat gagggtaaga ctttctttgt actacctagt 4800 

gatgacacac tacgtagtga agctttcgag tactaccata ctcttgatga gagttttctt 4860 

ggtaggtaca tgtctgcttt aaaccacaca aagaaatgga aatttcctca agttggtggt 4920 
ttaacttcaa ttaaatgggc tgataacaat tgttatttgt ctagtgtttt attagcactt 
caacagcttg aagtcaaatt caatgcacca gcacttcaag aggcttatta tagagcccgt 

gctggtgatg ctgctaactt ttgtgcactc atactcgctt acagtaataa aactgttggc 5100 

gagcttggtg atgtcagaga aactatgacc catcttctac agcatgctaa tttggaatct 5160 

gcaaagcgag ttcttaatgt ggtgtgtaaa cattgtggtc agaaaactac taccttaacg 5220 

ggtgtagaag ctgtgatgta tatgggtact ctatcttatg ataatcttaa gacaggtgtt 5280 

tccattccat gtgtgtgtgg tcgtgatgct acacaatatc tagtacaaca agagtcttct 5340 

tttgttatga tgtctgcacc acctgctgag tataaattac agcaaggtac attcttatgt 5400 

gcgaatgagt acactggtaa ctatcagtgt ggtcattaca ctcatataac tgctaaggag 5460 

accctctatc gtattgacgg agctcacctt acaaagatgt cagagtacaa aggaccagtg 5520 

actgatgttt tctacaagga aacatcttac actacaacca tcaagcctgt gtcgtataaa 5580 

ctcgatggag ttacttacac agagattgaa ccaaaattgg atgggtatta taaaaaggat 5640 

aatgcttact atacagagca gcctatagac cttgtaccaa ctcaaccatt accaaatgcg 5700 

agttttgata atttcaaact cacatgttct aacacaaaat ttgctgatga tttaaatcaa 5760 

atgacaggct tcacaaagcc agcttcacga gagctatctg tcacattctt cccagacttg 5820 

aatggcgatg tagtggctat tgactataga cactattcag cgagtttcaa gaaaggtgct 5880 

aaattactgc ataagccaat tgtttggcac attaaccagg ctacaaccaa gacaacgttc 5940 

6000 
6060 



aaaccaaaca cttggtgttt acgttgtctt tggagtacaa agccagtaga tacttcaaat 

tcatttgaag ttctggcagt agaagacaca caaggaatgg acaatcttgc ttgtgaaagt 

caacaaccca cctctgaaga agtagtggaa aatcctacca tacagaagga agtcatagag 6120 

tgtgacgtga aaactaccga agttgtaggc aatgtcatac ttaaaccatc agatgaaggt 6180 

gttaaagtaa cacaagagtt aggtcatgag gatcttatgg ctgcttatgt ggaaaacaca 6240 

agcattacca ttaagaaacc taatgagctt tcactagcct taggtttaaa aacaattgcc 6300 

actcatggta ttgctgcaat taatagtgtt ccttggagta aaattttggc ttatgtcaaa 6360 

ccattcttag gacaagcagc aattacaaca tcaaattgcg ctaagagatt agcacaacgt 6420 
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gxgxxxaaca 


axxa xaxgcc 


xxaxgxgxxx 


acattattgt 


tccaattgtg tacttttact 


D4oU 


aaaagxacca 


axxcxagaax 


xagagcxxca 


ctacctacaa 


ctattgctaa aaatagtgtt 




aagagxgx xg 


cxaaaxxaxg 


xxxggaxgcc 


ggcattaatt 


atgtgaagtc acccaaattt 


OOUU 


tctaaattgt: 


tcacaatcgc 


tatgtggcta 


ttgttgttaa gtatttgctt aggttctcta 


bbbO 


atctgtgtaa 


ctgctgcttt 


tggtgtactc 


ttatctaatt 


ttggtgctcc ttcttattgt 


67 20 


aatggcgtta 


gagaattgta 


tcttaattcg 


tctaacgtta 


ctactatgga tttctgtgaa 


6780 


ggttcttttc 


cttgcagcat 


ttgtttaagt 


ggattagact cccttgattc ttatccagct 


6840 


cttgaaacca 


ttcaggtgac 


gatttcatcg 


tacaagctag acttgacaat tttaggtctg 


6900 


gccgctgagt 


gggttttggc 


atatatgttg 


ttcacaaaat tcttttattt attaggtctt 


6960 


tcagctataa 


tgcaggtgtt 


ctttggctat 


tttgctagtc atttcatcag caattcttgg 


7020 


ctcatgtggt 


ttatcattag 


tattgtacaa 


atggcacccg tttctgcaat ggttaggatg 


7080 


tacatcttct 


ttgcttcttt 


ctactacata 


tggaagagct 


atgttcatat catggatggt 


7140 


tgcacctcxt 


cgacttgcat: 


gatgtgctat 


aagcgcaatc 


gtgccacacg cgttgagtgt 


7200 


acaactattg 


ttaatggcat 


gaagagatct 


ttctatgtct 


atgcaaatgg aggccgtggc 


7260 


ttctgcaaga 


ctcacaattg 


gaattgtctc 


aattgtgaca 


cattttgcac tggtagtaca 


7320 


ttcattagtg 


atgaagttgc 


tcgtgatttg 


tcactccagt 


ttaaaagacc aatcaaccct 


7380 


actgaccagt 


catcgtatat 


tgttgatagt 


gttgctgtga 


aaaatggcgc gcttcacctc 


7440 


tactttgaca 


aggctggtca 


aaagacctat 


gagagacatc 


cgctctccca ttttgtcaat 


7500 


ttagacaatt 


tgagagctaa 


caacactaaa 


ggttcactgc 


ctattaatgt catagttttt 


7560 


gatggcaagt 


ccaaatgcga 


cgagtctgct 


tctaagtctg 


cttctgtgta ctacagtcag 


7620 


ctgatgtgcc 


aacctattct 


gttgcttgac 


caagctxttg 


tatcagacgt tggagatagt 


7680 


actgaagttt 


ccgttaagat 


gtttgatgct 


tatgtcgaca 


ccttttcagc aacttttagt 


7740 


gttcctatgg 


aaaaacttaa 


ggcacttgtt 


gctacagctc 


acagcgagtt agcaaagggt 


7800 


gtagctttag 


atggtgtcct 


ttctacattc 


gtgtcagctg 


cccgacaagg tgttgttgat 


7860 


accgatgttg 


acacaaagga 


tgttattgaa 


tgtctcaaac tttcacatca ctctgactta 


7920 


gaagtgacag 


gtgacagttg 


taacaatttc 


atgctcacct 


ataataaggt tgaaaacatg 


7980 


acgcccagag 


atcttggcgc 


atgtattgac 


tgtaatgcaa ggcatatcaa tgcccaagta 


8040 


gcaaaaagtc 


acaatgtttc 


actcatctgg 


aatgtaaaag actacatgtc tttatctgaa 


8100 


cagctgcgta 


aacaaattcg 


tagtgctgcc 


aagaagaaca 


acataccttt tagactaact 


8160 


tgtgctacaa 


ctagacaggt 


tgtcaatgtc 


atraactacta 


aaatctcact caagggtggt 


8220 


aagattgtta 


gtacttgttt 


taaacttatg 


cttaaggcca 


cattattgtg cgttcttgct 


8280 


gcattggttt 


gttatatcgt 


tatgccagta 


catacattgt 


caatccatga tggttacaca 


8340 


aatgaaatca 


ttggttacaa 


agccattcag 


gatggtgtca 


ctcgtgacat catttctact 


8400 


gatgattgtt 


ttgcaaataa 


acatgctggt 


tttgacgcat 
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ggtttagcca gcgtggtggt 


8460 



tcatacaaaa atgacaaaag 
ttcatagtgc ctggcttacc 
tttctacctc gtgtttttag 
gagtatagtg attttgctac 
gatgctatgg gcaaacctgt 
tcttatagtg agcttcgtcc 
tttcctaaca cttacctgga 
tgtagacatg gtacatgcga 
tgggttctta ataatgagca 
atgaatctca tagctaacat 
tctgcttcag tagtggctgg 
tttatgaaat tcagacgtgt 
rtgtttttga tgtctttcac 
gtctactcag tcttttactt 
gctcaccttc aatggtttgc 
tatgtattct gtatttctct 
agagtcatgt ttaatggagt 
ttgctcaaca aggaaatgta 
tataacaggt atcttgctct 
accagctatc gtgaagcagc 
tcaggtgctg atgttctcta 
agtggtttta ggaaaatggc 
acctgtggaa ctacaactct 
catgtcattt gcacagcaga 
aaatccaacc atagctttct 
tctatgcaaa attgtctgct 
tataaatttg tccgtatcca 
tcaccatctg gtgtttatca 
cttaatggat catgtggtag 
tatatgcatc atatggagct 
ttctatggtc catttgttga 
acattaaatg ttttggcatg 
aatagattca ccactacttt 
cctttgacac aagatcatgt 
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ctgccctgta gtagctgcta tcattacaag 
gggtactgtg ctgagagcaa tcaatggtga 
tgctgttggc aacatttgct acacaccttc 
ctctgcttgc gttcttgctg ctgagtgtac 
gccatattgt tatgacacta atttgctaga 
agacactcgt tatgtgctta tggatggttc 
gggttctgtt agagtagtaa caacttttga 
aaggtcagaa gtaggtattt gcctatctac 
tuacagagct ctatcaggag ttttctgtgg 
ctttactcct cttgtgcaac ctgtgggtgc 
tggtattatt gccatattgg tgacttgtgc 
ttttggtgag tacaaccatg ttgttgctgc 
tatactctgt ctggtaccag cttacagctt 
gtacttgaca ttctatttca ccaatgatgt 
catgttttct cctattgtgc ctttttggat 
gaagcactgc cattggttct ttaacaacta 
tacatttagt accttcgagg aggctgcttt 
cctaaaattg cgtagcgaga cactgttgcc 
atataacaag tacaagtatt tcagtggagc 
ttgctgccac ttagcaaagg ctctaaatga 
ccaaccacca cagacatcaa tcacttctgc 
attcccgtca ggcaaagttg aagggtgcat 
taatggattg tggttggatg acacagtata 
agacatgctt aatcctaact atgaagatct 
tgttcaggct ggcaatgttc aacttcgtgt 
taggcttaaa gttgatactt ctaaccctaa 
acctggtcaa acattttcag ttctagcatg 
gtgtgccatg agacctaatc ataccattaa 
tgttggtttt aacattgatt atgattgcgt 
tccaacagga gtacacgctg gtactgactt 
cagacaaact gcacaggctg caggtacaga 
gctgtatgct gctgttatca atggtgatag 
gaatgacttt aaccttgtgg caatgaagta 



tgacatattg ggacctcttt ctgctcaaac 
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agagattggt 
cttcttgcat 
caaactcatt 
aatttttaag 
gggttctatt 
catcatacag 
tgctgagtac 
cagtggtaga 
tgttgatgcg 
tttagatgtg 
tgcctactac 
taatgcactt 
tctgccggga 
ttcattcttg 
aacagcaatc 
tcttaggaaa 
gtgtaccttt 
acttacacag 
cttagatact 
ctttagcaac 
tgttctgcag 
ggtacaagta 
ctgtccaaga 
gctcattcgc 
tattggccat 
gacacccaag 
ctacaatggt 
aggttctttc 
gtctttctgc 
agaaggtaaa 
cacaaccata 
gtggtttctt 
caactatgaa 
aggaattgcc 



8520 
8580 
8640 
8700 
8760 
8820 
8880 
8940 
9000 
9060 
9120 
9180 
9240 
9300 
9360 
9420 
9480 
9540 
9600 
9660 
9720 
9780 
9840 
9900 
9960 
10020 
10080 
10140 
10200 
10260 
10320 
10380 
10440 
10500 
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gtcttagata tgtgtgctgc tttgaaagag ctgctgcaga atggtatgaa tggtcgtact 10560 

atccttggta gcactatttt agaagatgag tttacaccat ttgatgttgt tagacaatgc 10620 

tctggtgtta ccttccaagg taagttcaag aaaattgtta agggcactca tcattggatg 10680 

cttttaactt tcttgacatc actattgatt cttgttcaaa gtacacagtg gtcactgttt 10740 

ttctttgttt acgagaatgc tttcttgcca tttactcttg gtattatggc aattgctgca 10800 

tgtgctatgc tgcttgttaa gcataagcac gcattcttgt gcttgtttct gttaccttct 10860 

cttgcaacag ttgcttactt taatatggtc tacatgcctg ctagctgggt gatgcgtatc 10920 

atgacatggc ttgaattggc tgacactagc ttgtctggtt ataggcttaa ggattgtgtt 10980 

atgtatgctt cagctttagt tttgcttatt ctcatgacag ctcgcactgt ttatgatgat 11040 

gctgctagac gtgtttggac actgatgaat gtcattacac ttgtttacaa agtctactat 11100 

ggtaatgctt tagatcaagc tatttccatg tgggccttag ttatttctgt aacctctaac 11160 

tattctggtg tcgttacgac tatcatgttt ttagctagag ctatagtgtt tgtgtgtgtt 11220 

gagtattacc cattgttatt tattactggc aacaccttac agtgtatcat gcttgtttat 11280 

tgtttcttag gctattgttg ctgctgctac tttggccttt tctgtttact caaccgttac 11340 

trtcaggctta ctcttggtrgt ttatgactac ttggtctcta cacaagaatt taggtatatg 11400 

aactcccagg ggcttttgcc tcctaagagt agtattgatg ctttcaagct taacattaag 11460 

ttgttgggta ttggaggtaa accatgtatc aaggttgcta ctgtacagtc taaaatgtct 11520 

gacgtaaagt gcacatctgt ggtactgctc tcggttcttc aacaacttag agtagagtca 11580 

tcttctaaat tgtgggcaca atgtgtacaa ctccacaatg atattcttct tgcaaaagac 11640 

acaactgaag ctttcgagaa gatggtttct cttttgtctg ttttgctatc catgcagggt 11700 

gctgtagaca ttaataggtt gtgcgaggaa atgctcgata accgtgctac tcttcaggct 11760 

attgcttcag aatttagttc tttaccatca tatgccgctt atgccactgc ccaggaggcc 11820 

tatgagcagg ctgtagctaa tggtgattct gaagtcgttc tcaaaaagtt aaagaaatct 11880 

ttgaatgtgg ctaaatctga gtttgaccgt gatgctgcca tgcaacgcaa gttggaaaag 11940 

atggcagatc aggctatgac ccaaatgtac aaacaggcaa gatctgagga caagagggca 12000 

aaagtaacta gtgctatgca aacaatgctc ttcactatgc ttaggaagct tgataatgat 12060 

gcacttaaca acattatcaa caatgcgcgt gatggttgtg ttccactcaa catcatacca 12120 

ttgactacag cagccaaact catggttgtt gtccctgatt atggtaccta caagaacact 12180 

tgtgatggta acacctttac atatgcatct gcactctggg aaatccagca agttgttgat 12240 

gcggatagca agattgttca acttagtgaa attaacatgg acaattcacc aaatttggct 12300 

tggcctctta ttgttacagc tctaagagcc aactcagctg ttaaactaca gaataatgaa 12360 

ctgagtccag tagcactacg acagatgtcc tgtgcggctg gtaccacaca aacagcttgt 12420 

actgatgaca atgcacttgc ctactataac aattcgaagg gaggtaggtt tgtgctggca 12480 

ttactatcag accaccaaga tctcaaatgg gctagattcc ctaagagtga tggtacaggt 12540 
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acaatttaca cagaactgga accaccttgt aggtttgtta cagacacacc aaaagggcct 12600 

aaagtgaaat acttgtactt catcaaaggc ttaaacaacc taaatagagg tatggtgctg 12660 

ggcagtttag ctgctacagt acgtcttcag gctggaaatg ctacagaagt acctgccaat 12720 

tcaactgtgc tttccttctg tgcttttgca gtagaccctg ctaaagcata taaggattac 12780 

ctagcaagtg gaggacaacc aatcaccaac tgtgtgaaga tgttgtgtac acacactggt 12840 

acaggacagg caattactgt aacaccagaa gctaacatgg accaagagtc ctttggtggt 12900 

gcttcatgtt gtctgtattg tagatgccac attgaccatc caaatcctaa aggattctgt 12960 

gacttgaaag gtaagtacgt ccaaatacct accacttgtg ctaatgaccc agtgggtttt 13020 

acacttagaa acacagtctg taccgtctgc ggaatgtgga aaggttatgg ctgtagttgt 13080 

gaccaactcc gcgaaccctt gatgcagtct gcggatgcat caacgttttt aaacgggttt 13140 

gcggtgtaag tgcagcccgt cttacaccgt gcggcacagg cactagtact gatgtcgtct 13200 

acagggcttt tgatatttac aacgaaaaag ttgctggttt tgcaaagttc ctaaaaacta 13260 

attgctgtcg cttccaggag aaggatgagg aaggcaattt attagactct tactttgtag 13320 

ttaagaggca tactatgtct aactaccaac atgaagagac tatttataac ttggttaaag 13380 

attgtccagc ggttgctgtc catgactttt tcaagtttag agtagatggt gacatggtac 13440 

cacatatatc acgtcagcgt ctaactaaat acacaatggc tgatttagtc tatgctctac 13500 

gtcattttga tgagggtaat ngtgatacat taaaagaaat actcgtcaca tacaattgct 13560 

gtgatgatga ttatttcaat aagaaggatt ggtatgactt cgtagagaat cctgacatxt 13620 

tacgcgtata tgctaactta ggtgagcgtg tacgccaatc attattaaag actgtacaat 13680 

tctgcgatgc tatgcgtgat gcaggcattg taggcgtact gacattagat aatcaggatc 13740 

ttaatgggaa ctggtacgat ttcggtgatt tcgtacaagt agcaccaggc tgcggagttc 13800 

ctattgtgga ttcatattac tcattgctga tgcccatcct cactttgact agggcattgg 13860 

ctgctgagtc ccatatggat gctgatctcg caaaaccact tattaagtgg gatttgctga 13920 

aatatgattt tacggaagag agactttgtc tcttcgaccg ttattttaaa tattgggacc 13980 

agacatacca tcccaattgt attaactgtt tggatgatag gtgtatcctt cattgtgcaa 14040 

actttaatgt gttattttct actgtgtttc cacctacaag ttttggacca ctagtaagaa 14100 

aaatatttgt agatggtgtt ccttttgttg tttcaactgg ataccatttt cgtgagttag 14160 

gagtcgtaca taatcaggat gtaaacttac atagctcgcg tctcagtttc aaggaacttt 14220 

tagtgtatgc tgctgatcca gctatgcatg cagcttctgg caatttattg ctagataaac 14280 

gcactacatg cttttcagta gctgcactaa caaacaatgt tgcttttcaa actgtcaaac 14340 

ccggtaattt taataaagac ttttatgact ttgctgtgtc taaaggtttc tttaaggaag 14400 

gaagttctgt tgaactaaaa cacttcttct ttgctcagga tggcaacgct gctatcagtg 14460 

attatgacta ttatcgttat aatctgccaa caatgtgtga tatcagacaa ctcctattcg 14520 

tagttgaagt tgttgataaa tactttgatt gttacgatgg tggctgtatt aatgccaacc 14580 
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aagtaatcgt 


taacaatctg 


gataaatcag 


ctggtttccc atttaataaa 


tggggtaagg 


14640 


ctagacttta 


ttatgactca 


atgagttatg 


aggatcaaga tgcacttttc 


gcgtatacta 


14700 


agcgtaatgt 


catccctact 


ataactcaaa 


tgaatcttaa gtatgccatt 


agtgcaaaga 


14760 


ataqaqctcq 


caccgtagct 


ggtgtctcta tctgtagtac tatgacaaat agacagtttc 


14820 


atcagaaatt 


at:tgaagt:ca 


atagccgcca ctagaggagc tactgtggta attggaacaa 


14880 


gcaagnti"tta 


*-yy L yy v - *-yy 


cataatatgt taaaaactgt ttacagtgat gtagaaactc 


14940 


cacaccttat 




tatccaaaat gtgacagagc catgcctaac 


atgcttagga 


15000 


traatraacctc 

vuu m»yy v»v» 


tcttattctrt 


gctcgcaaac ataacacttg ctgtaactta tcacaccgtt 


15060 


"tctacaacrtt 


aoctaacaaa 


tgtgcgcaag tattaagtga gatggtcatg tgtggcggct 


15120 


cactatatat 


taaaccaaal: 


y y ciciv-ci lv.a l 


ccggtgatgc tacaactgct tatgctaata 


15180 

•J ' JLUU 


a"ta1:c1:t:t:aa 


catzttatrcaa 


y v. *-y *- LciL.c*y 


ccaatgtaaa tgcacttctt tcaactgatg 


15240 


tTtaataaaal: 


aactiaacaaa 


"t* a 1" n 1" rr n c a 

La. Ly LV_V_y V_d 


atctacaaca caggctctzat 


gagtgtctct 


15300 


atzaaaaataa 


aaat:at"taat: 

yyw *-y v_ u 


L.d Lyaa l LL.y 


tggatgagtt ttacgcttac 


ctgcgtaaac 


15360 


attlzcliccat: 

W W »w V* \- 


aataatlic'L't: 


ll. Lya Ly d Ly 


ccgttgtgtg ctataacagt 


aactatgcgg 


15420 


ctcaaaatttr 

V- V- V— v*. w. y y L ^. L 




attaagaact 


ttaaggcagt tctttattat 


caaaataatg 


15480 


*ta"tt*catia*tc 


y y y ^* 


tgttggactg 


agactgacct tactaaagga cctcacgaat 


1 5540 


t**t" t" a r 1"C a r a 




ctagttaaac 


aaggagatga ttacgtgtac ctgccttacc 


XJUW 


L-dy d L V_V_d L v_ 


ddydd Ld L Ld 


ggcgcaggct 


gttttgtcga tgatattgtc 


aaaacagatg 


1DODU 


y L.dv_dL. L Ld L 


yd l Lydddyy 


ttcgtgtcac 


tggctattga tgcttaccca 


cttacaaaac 






y y cty Ld Ly l. l 


gatgtctttc 


acttgtattt acaatacatt 


agaaagttac 


JL Z> / oU 


atya uyayL L 


LdL. LyyLLdL 


atgttggaca 


tgtattccgt aatgctaact 


aatgataaca 


JLjohU 


v- L. L v,aLyy Ld 


rtflfinaarrt 
l. Ly yy daLL l 


gagttttatg 


aggctatgta cacaccacat 


acagtcttgc 


JL jzJUlJ 


"yy- »-y ^ayy 


"t" a c *t" 1" n 1" n 1" 7% 
tyL l ty uy Ld 


ttgtgcaatt 


cacagacrtc acttcgttgc 


ggtgcctgta 


JL J 5Dv 


i— L»dyyaycn— v. 


a t: t c c t" a t* o 1* 


tgcaagtgct 


gctatgacca tgtcatttca 


acatcacaca 


i 


aa*t *t a q "t a *t "t 


at*ct"aTl*aaT 

y l\> v- y liqu l 


ccctatgttt 


gcaatgcccc aggttgtgat 


gtcactgatg 


XvJUOv 


"toacacaact: 


□"tatctaaaa 


ggtatgagct 


attattgcaa gtcacataag 


cctcccatta 


1 fil 40 

-LVJ JL*-t \J 


attttccatt 


a"tal*ac1~aal" 

uvy L y V» LOu L 


ggtcaggttt 


ttggtttata caaaaacaca 


tgtgtaggca 


XvJ/-.Lfv/ 


a*t a a c a a*ta t 


c a ci" q a n* t* 


aatgcgatag 


caacatgtga ttggactaat 


gctggcgatt 


JL Oil uu 


acatacttgc 


caacacttgt 


actgagagac tcaagctttt cgcagcagaa acgctcaaag 


16320 


ccactgagga 


aacatttaag 


ctgtcatatg gtattgccac tgtacgcgaa gtactctctg 


16380 


acagagaatt 


gcatctttca 


tgggaggttg gaaaacctag accaccattg 


aacagaaact 


16440 


atgtctttac 


tggttaccgt 


gtaactaaaa 


atagtaaagt acagattgga 


gagtacacct 


16500 


ttgaaaaagg 


tgactatggt 


gatgctgttg tgtacagagg tactacgaca tacaagttga 


16560 


atgttggtga 


ttactttgtg 


ttgacatctc 


acactgtaat gccacttagt gcacctactc 
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tagtgccaca agagcactat gtgagaatta ctggcttgta cccaacactc aacatctcag 16680 

atgagttttc tagcaatgtt gcaaattatc aaaaggtcgg catgcaaaag tactctacac 16740 

tccaaggacc acctggtact ggtaagagtc attttgccat cggacttgct ctctattacc 16800 

catctgctcg catagtgtat acggcatgct ctcatgcagc tgttgatgcc ctatgtgaaa 16860 

aggcattaaa atatttgccc atagataaat gtagtagaat catacctgcg cgtgcgcgcg 16920 

tagagtgttt tgataaattc aaagtgaatt caacactaga acagtatgtt ttctgcactg 16980 

taaatgcatt gccagaaaca actgctgaca ttgtagtctt tgatgaaatc tctatggcta 17040 

ctaattatga cttgagtgtt gtcaatgcta gacttcgtgc aaaacactac gtctatattg 17100 

gcgatcctgc tcaattacca gccccccgca cattgctgac taaaggcaca ctagaaccag 17160 

aatattttaa ttcagtgtgc agacttatga aaacaatagg tccagacatg ttccttggaa 17220 

cttgtcgccg ttgtcctgct gaaattgttg acactgtgag tgctttagtt tatgacaata 17280 

agctaaaagc acacaaggat aagtcagctc aatgcttcaa aatgttctac aaaggtgtta 17340 

ttacacatga tgtttcatct gcaatcaaca gacctcaaat aggcgttgta agagaatttc 17400 

ttacacgcaa tcctgcttgg agaaaagctg tttttatctc accttataat tcacagaacg 17460 

ctgtagcttc aaaaatctta ggattgccta cgcagactgt tgattcatca cagggttctg 17520 

aatatgacta tgtcatattc acacaaacta ctgaaacagc acactcttgt aatgtcaacc 17580 

gcttcaatgt ggctatcaca agggcaaaaa ttggcatttt gtgcataatg tctgatagag 17640 

atctttatga caaactgcaa tttacaagtc tagaaatacc acgtcgcaat gtggctacat 17700 

tacaagcaga aaatgtaact ggacttttta aggactgtag taagatcatt actggtcttc 17760 

atcctacaca ggcacctaca cacctcagcg ttgatataaa gttcaagact gaaggattat 17820 

gtgttgacat accaggcata ccaaaggaca tgacctaccg tagactcatc tctatgatgg 17880 

gtttcaaaat gaattaccaa gtcaatggtt accctaatat gtttatcacc cgcgaagaag 17940 

ctattcgtca cgttcgtgcg tggantggct ttgatgtaga gggctgtcat gcaactagag 18000 

atgctgtggg tactaaccta cctctccagc taggattttc tacaggtgtt aacttagtag 18060 

ctgtaccgac tggttatgtt gacactgaaa ataacacaga attcaccaga gttaatgcaa 18120 

aacctccacc aggtgaccag tttaaacatc ttataccact catgtataaa ggcttgccct 18180 

ggaatgtagt gcgtattaag atagtacaaa tgctcagtga tacactgaaa ggattgtcag 18240 

acagagtcgt gttcgtcctt tgggcgcatg gctttgagct tacatcaatg aagtactttg 18300 

tcaagattgg acctgaaaga acgtgttgtc tgtgtgacaa acgtgcaact tgcttttcta 18360 

cttcatcaga tacttatgcc tgctggaatc attctgtggg ttttgactat gtctataacc 18420 

catttatgat tgatgttcag cagtggggct ttacgggtaa ccttcagagt aaccatgacc 18480 

aacattgcca ggtacatgga aatgcacatg tggctagttg tgatgctatc atgactagat 18540 

gtttagcagt ccatgagtgc tttgttaagc gcgttgattg gtctgttgaa taccctatta 18600 

taggagatga actgagggtt aattctgctt gcagaaaagt acaacacatg gttgtgaagt 18660 
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ctgcattgct tgctgataag tttccagttc ttcatgacat tggaaatcca aaggctatca 18720 

agtgtgtgcc tcaggctgaa gtagaatgga agttctacga tgctcagcca tgtagtgaca 18780 

aagcttacaa aatagaggaa ctcttctatt cttatgctac acatcacgat aaattcactg 18840 

atggtgtttg tttgttttgg aattgtaacg ttgatcgtta cccagccaat gcaattgtgt 18900 

gtaggtttga cacaagagtc ttgtcaaact tgaacttacc aggctgtgat ggtggtagtt 18960 

tgtatgtgaa taagcatgca ttccacactc cagctttcga taaaagtgca tttactaatt 19020 

taaagcaatt gcctttcttt tactattctg atagtccttg tgagtctcat ggcaaacaag 19080 

tagtgtcgga tattgattat gttccactca aatctgctac gtgtattaca cgatgcaatt 19140 

taggtggtgc tgtttgcaga caccatgcaa atgagtaccg acagtacttg gatgcatata 19200 

atatgatgat ttctgctgga tttagcctat ggatttacaa acaatttgat acttataacc 19260 

tgtggaatac atttaccagg ttacagagtt tagaaaatgt ggcttataat gttgttaata 19320 

aaggacactt tgatggacac gccggcgaag cacctgtttc catcattaat aatgctgttt 19380 

acacaaaggt agatggtatt gatgtggaga tctttgaaaa taagacaaca cttcctgtta 19440 

atgttgcatt tgagctttgg gctaagcgta acattaaacc agtgccagag attaagatac 19500 

tcaataattt gggtgttgat atcgctgcta atactgtaat ctgggactac aaaagagaag 19560 

ccccagcaca tgtatctaca ataggtgtct gcacaatgac tgacattgcc aagaaaccta 19620 

ctgagagtgc ttgttcttca cttactgtct tgtttgatgg tagagtggaa ggacaggtag 19680 

acctttttag aaacgcccgt aatggtgttt taataacaga aggttcagtc aaaggtctaa 19740 

caccttcaaa gggaccagca caagctagcg tcaatggagt cacattaatt ggagaatcag 19800 

taaaaacaca gtttaactac tttaagaaag tagacggcat tattcaacag ttgcctgaaa 19860 

cctactttac tcagagcaga gacttagagg attttaagcc cagatcacaa atggaaactg 19920 

actttctcga gctcgctatg gatgaattca tacagcgata taagctcgag ggctatgcct 19980 

tcgaacacat cgtttatgga gatttcagtc atggacaact tggcggtctt catttaatga 20040 

taggcttagc caagcgctca caagattcac cacttaaatt agaggatttt atccctatgg 20100 

acagcacagt gaaaaattac ttcataacag atgcgcaaac aggttcatca aaatgtgtgt 20160 

gttctgtgat tgatctttta cttgatgact ttgtcgagat aataaagtca caagatttgt 20220 

cagtgatttc aaaagtggtc aaggttacaa ttgactatgc tgaaatttca ttcatgcttt 20280 

ggtgtaagga tggacatgtt gaaaccttct acccaaaact acaagcaagt caagcgtggc 20340 

aaccaggtgt tgcgatgcct aacttgtaca agatgcaaag aatgcttctt gaaaagtgtg 20400 

accttcagaa ttatggtgaa aatgctgtta taccaaaagg aataatgatg aatgtcgcaa 20460 

agtatactca actgtgtcaa tacttaaata cacttacttt agctgtaccc tacaacatga 20520 

gagttattca ctttggtgct ggctctgata aaggagttgc accaggtaca gctgtgctca 20580 

gacaatggtt gccaactggc acactacttg tcgattcaga tcttaatgac ttcgtctccg 20640 

acgcagattc tactttaatt ggagactgtg caacagtaca tacggctaat aaatgggacc 20700 

Page 60 



I CI UCfJUl 



ttattattag 

aagaagggtt 

ctatagctgt 

atttctcatg 

taattggggc 

ctaactacat 

acatgagcaa 

aaatcaatga 

acagagttgt 



cgatatgtat 
tttcacttat 
aaagataaca 
gtggacagct 
taactatctt 
tttctggagg 
atttcctctt 
tatgatttat 
ggtttcaagt 



gaccctagga 
ctgtgtggat 
gagcattctt 
tttgttacaa 
ggcaagccga 
aacacaaatc 
aaattaagag 
tctcttctgg 
gatattcttg 



S226CAS108 
ccaaacatgt 
ttataaagca 
ggaatgctga 
atgtaaatgc 
aggaacaaat 
ctatccagtt 
gaactgctgt 
aaaaaggtag 
ttaacaacta 



ST25 

gacaaaagag 
aaaactagcc 
cctttacaag 
atcatcatcg 
tgatggctat 
gtcttcctat 
aatgtctctt 
gcttatcatt 
a 



aatgactcta 
ctgggtggtt 
cttatgggcc 
gaagcatttt 
accatgcatg 
tcactctttg 
aaggagaatc 
agagaaaaca 



20760 

20820 

20880 

20940 

21000 

21060 

21120 

21180 

21221 



<210> 32 

<211> 297 

<212> DNA 

<213> CORONAVIRUS 

<400> 32 

atggacccca atcaaaccaa 
caactgacaa taaccagaat 
aaggtttacc caataatact 
aacttagatt ccctcgaggc 
aaattggcta ctaccgaaga 

<210> 33 

<211> 98 

<212> PRT 

<213> CORONAVIRUS 



cgtagtgccc cccgcattac atttggtgga cccacagatt 
ggaggacgca atggggcaag gccaaaacag cgccgacccc 
gcgtcttggt tcacagctct cactcagcat ggcaaggagg 
cagggcgttc caatcaacac caatagtggt ccagatgacc 
gctacccgac gagttcgtgg tggtgacggc aaaatga 



60 
120 
180 
240 
297 



<400> 33 



Met Asp Pro Asn Gin Thr Asn val val Pro Pro Ala Leu His Leu Val 



15 



Asp Pro Gin lie Gin Leu Thr He Thr Arg Met Glu Asp Ala Met Gly 



20 



Gin Gly Gin Asn ser Ala Asp Pro Lys val Tyr Pro lie He Leu Arg 



35 



40 



Leu Gly ser Gin Leu ser Leu ser Met Ala Arg Arg Asn Leu Asp Ser 



50 



55 
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Leu Glu Ala Arg Ala Phe Gin ser Thr Pro lie val val Gin Met Thr 
65 ~ 70 75 80 

Lys Leu Ala Thr Thr Glu Glu Leu Pro Asp Glu Phe val val val Thr 
85 90 95 

Ala Lys 



<210> 34 

<211> 213 

<212> DNA 

<213> CORONAVIRUS 



<400> 34 

atgctgccac cgtgctacaa cttcctcaag gaacaacatt gccaaaaggc ttctacgcag 60 

agggaagcag aggcggcagt caagcctctt ctcgctcctc atcacgtagt cgcggtaatt 120 

caagaaattc aactcctggc agcagtaggg gaaattctcc tgctcgaatg gctagcggag 180 

gtggtgaaac tgccctcgcg ctattgctgc tag 213 

<210> 35 

<211> 70 

<212> PRT 

<213> CORONAVIRUS 

<400> 35 

Met Leu Pro Pro cys Tyr Asn Phe Leu Lys Glu Gin His cys Gin Lys 
15 10 15 

Ala Ser Thr Gin Arg Glu Ala Glu Ala Ala val Lys Pro Leu Leu Ala 
20 25 30 

Pro His His Val val Ala Val lie Gin Glu lie Gin Leu Leu Ala Ala 
35 40 45 

Val Gly Glu lie Leu Leu Leu Glu Trp Leu Ala Glu val Val Lys Leu 
50 55 60 

Pro ser Arg Tyr Cys Cys 
65 70 



<210> 36 



Page 62 



S226CAS108.ST25 

<211> 1377 

<212> DNA 

<213> CORONAVIRUS 

<220> 

<221> CDS 

<222> (67) . . C1335) 

<223> 



a£gaagg?ca ccaaactgct gcatttagag acgtacttgt tgttttaaat aaacgaacaa 60 

at-faaa ata tct aat aat gga ccc caa tea aac caa cgt agt gee ccc 108 
attaaa Set Ser Asp Asn 1% Pro Gin ser Asn Gin Arg Ser Ala Pro 
1 5 1° 

rac att aca ttt qqt gga ccc aca gat tea act gac aat aac cag aat 
A?g lie Th? Phe G% G?y Pro Thr Asp ser Thr Asp Asn Asn Gin Asn 
15 20 25 3U 

aaa aaa cac aat ggg gca agg cca aaa cag cgc cga ccc caa gat tta 
illy G?y A?g Sn gT? Ala Arg Pro Lys Gin Arg Arg Pro Gin G?y Leu 

ccc aat aat act gcg tct tgg ttc aca get etc act cag cat ggc aag 
pro Asn Asn Thr Ala ser Trp Phe Thr Ala Leu Thr Gin His Giy Lys 
50 55 bU 

ss si s a? as ss as a? as as «a ss sk ss as as 

65 70 75 

agt ggt cca gat gac caa att ggc tac tac cga aga get acc cga cga 
ser Gly Pro Asp Asp Gin He Gly Tyr Tyr Arg Arg Ala Thr Arg Arg 
80 85 y° 

orr cat aat aat aac qqc aaa atg aaa gag etc age ccc aga tgg tac 
3al A?g 8$ Ep Lys Me? Lys glu Leu Ser Pro Arg Trp Tyr 
95 100 105 

i-i-r far tar eta aaa act qqc cca gaa get tea ctt ccc tac ggc get 
Phe Tyr Tyr 55 i?5 Thr fly Pro Glu Xla Ser Leu Pro Tyr dy Ala 
115 120 ±z:> 

aa , aaa aaa aac ate qta tgg gtt gca act gag gga gee ttg aat aca 
Sn lys R5-H5-llS ?al Trp val Ala Thr Glu G?y Ala Leu Asn Thr 
130 135 

nar rar art aac acc cqc aat cct aat aac aat get gee acc 
Pro lys lip SiS lie 85 Thr Arg Asn Pro Asn Asn Asn Ala Ala Thr 
145 150 J--" 

m-n rta caa ctt cct caa qqa aca aca ttg cca aaa ggc ttc tac gca 
83 £2 Gin HI Pro Gin G?y Thr Thr Leu Pro Lys G Ty Phe Tyr Ala 
160 165 1/u 

aaa aaa aqc aga ggc ggc agt caa gee tct tct cgc tec tea tea cgt 
ITS Hy Sir A?g G?y G?y sir Gin Ala ser ser Arg Ser ser ser Arg 
175 180 185 - Lyu 
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156 



204 



252 



300 



348 



396 



444 



492 



540 



588 



636 
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agt cgc ggt aat tea aga aat tea act cct ggc age agt agg gga aat 684 
Ser Arg Gly Asn ser Arg Asn ser Thr Pro Gly ser ser Arg Gly Asn 
195 200 205 

tct cct get cga atg get age gga gqt ggt gaa act gee etc gcg eta 
ser pro Ala Arg Met Ala Ser Gly Gly Gly Glu Thr Ala Leu Ala Leu 
210 215 220 



732 



ttg ctg eta gac aga ttg aac cag ctt gag age aaa gtt tct ggt aaa 780 
Leu Leu Leu Asp Arg Leu Asn Gin Leu Glu Ser Lys val Ser Gly Lys 
225 230 235 

ggc caa caa caa caa ggc caa act gtc act aag aaa tct get get gag 828 
Gly Gin Gin Gin Gin Gly Gin Thr Val Thr Lys Lys ser Ala Ala Glu 
240 245 250 

gca tct aaa aag cct cgc caa aaa cgt act gee aca aaa cag tac aac 876 
Ala ser Lys Lys pro Arg Gin Lys Arg Thr Ala Thr Lys Gin Tyr Asn 
255 260 265 270 

gtc act caa gca ttt ggg aga cgt ggt cca gaa caa acc caa gga aat 924 
Val Thr Gin Ala Phe Gly Arg Arg Gly Pro Glu Gin Thr Gin Gly Asn 
275 280 285 

ttc ggg gac caa gac eta ate aga caa gga act gat tac aaa cat tgg 972 
Phe Gly Asp Gin Asp Leu He Arg Gin Gly Thr Asp Tyr Lys His Trp 
290 295 300 

ccg caa att gca caa ttt get cca agt gee tct gca ttc ttt gga atg 1020 
Pro Gin lie Ala Gin Phe Ala Pro Ser Ala Ser Ala Phe Phe Gly Met 
305 310 315 

tea cgc att ggc atg gaa gtc aca cct teg gga aca tgg ctg act tat 1068 
Ser Arg lie Gly Met Glu Val Thr Pro Ser Gly Thr Trp Leu Thr Tyr 
320 325 330 

cat gga gee att aaa ttg gat gac aaa gat cca caa ttc aaa gac aac 1116 
His Gly Ala lie Lys Leu Asp Asp Lys Asp Pro Gin Phe Lys Asp Asn 
335 340 345 350 

gtc ata ctg ctg aac aag cac att gac gca tac aaa aca ttc cca cca 1164 
val lie Leu Leu Asn Lys His lie Asp Ala Tyr Lys Thr phe Pro Pro 
355 360 365 

aca gag cct aaa aag gac aaa aag aaa aag act gat gaa get cag cct 1212 
Thr Glu Pro Lys Lys Asp Lys Lys Lys Lys Thr Asp Glu Ala Gin Pro 
370 375 380 

ttg ccg cag aga caa aag aag cag ccc act gtg act ctt ctt cct gcg 1260 
Leu pro Gin Arg Gin Lys Lys Gin Pro Thr Val Thr Leu Leu Pro Ala 
385 ~ 390 395 

get gac atg gat gat ttc tec aga caa ctt caa aat tec atg agt gga 1308 
Ala Asp Met Asp Asp Phe Ser Arg Gin Leu Gin Asn Ser Met Ser Gly 
400 405 410 

get tct get gat tea act cag gca taa acactcatga tgaccacaca 1355 
Ala Ser Ala Asp ser Thr Gin Ala 
415 420 

aggcagatgg gctatgtaaa eg 1377 

<210> 37 
<211> 422 
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<212> PRT 

<213> CORONAVIRUS 



<400> 37 

Met ser Asp Asn Gly Pro Gin Ser Asn Gin Arg ser Ala Pro Arg lie 
]_ 5 10 i- 5 

Thr Phe Gly Gly Pro Thr Asp ser Thr Asp Asn Asn Gin Asn Gly Gly 
20 25 30 

Arg Asn Gly Ala Arg Pro Lys Gin Arg Arg Pro Gin Gly Leu Pro Asn 
35 40 45 

Asn Thr Ala Ser Trp Phe Thr Ala Leu Thr Gin His Gly Lys Glu Glu 
50 55 60 

Leu Arg Phe Pro Arg Gly Gin Gly val Pro lie Asn Thr Asn Ser Gly 
65 70 75 SO 

pro Asp Asp Gin lie Gly Tyr Tyr Arg Arg Ala Thr Arg Arg Val Arg 
85 90 95 

Gly Gly Asp Gly Lys Met Lys Glu Leu ser Pro Arg Trp Tyr Phe Tyr 

Tvr Leu Gly Thr Gly Pro Glu Ala ser Leu Pro Tyr Gly Ala Asn Lys 
115 120 125 

Glu Gly lie Val Trp val Ala Thr Glu Gly Ala Leu Asn Thr Pro Lys 
130 135 140 



Asp His lie Gly Thr Arg Asn Pro Asn Asn Asn Ala Ala Thr Val Leu 
145 150 155 160 

Gin Leu Pro Gin Gly Thr Thr Leu Pro Lys Gly Phe Tyr Ala Glu Gly 
165 170 175 

ser Arg Gly Gly ser Gin Ala ser Ser Arg ser Ser Ser Arg ser Arg 
180 185 190 

Gly Asn ser Arg Asn Ser Thr Pro Gly ser Ser Arg Gly Asn ser Pro 
195 ~ 200 205 

Ala Arg Met Ala Ser Gly Gly Gly Glu Thr Ala Leu Ala Leu Leu Leu 
210 215 220 

Leu Asp Arg Leu Asn Gin Leu Glu Ser Lys val Ser Gly Lys Gly Gin 
225 230 235 240 
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Gin Gin Gin Gly Gin Thr Val Thr Lys Lys Ser Ala Ala Glu Ala Ser 
245 250 255 

Lys Lys Pro Arg Gin Lys Arg Thr Ala Thr Lys Gin Tyr Asn Val Thr 
260 265 270 

Gin Ala Phe Gly Arg Arg Gly Pro Glu Gin Thr Gin Gly Asn Phe Gly 
275 280 285 

Asp Gin Asp Leu lie Arg Gin Gly Thr Asp Tyr Lys His Trp Pro Gin 
290 295 300 

lie Ala Gin Phe Ala Pro Ser Ala Ser Ala Phe Phe Gly Met Ser Ar 
305 310 315 32 

He Gly Met Glu val Thr Pro ser Gly Thr Trp Leu Thr Tyr His Gly 
325 330 335 

Ala lie Lys Leu Asp Asp Lys Asp Pro Gin Phe Lys Asp Asn val lie 
340 345 350 

Leu Leu Asn Lys His He Asp Ala Tyr Lys Thr Phe Pro Pro Thr Glu 
355 360 365 

Pro Lys Lys Asp Lys Lys Lys Lys Thr Asp Glu Ala Gin Pro Leu Pro 
370 375 380 

Gin Arg Gin Lys Lys Gin Pro Thr Val Thr Leu Leu Pro Ala Ala Asp 
385 390 395 400 

Met Asp Asp Phe Ser Arg Gin Leu Gin Asn Ser Met ser Gly Ala ser 
405 410 415 

Ala Asp ser Thr Gin Ala 
420 

<210> 38 

<211> 1377 

<212> DNA 

<213> CORONAVIRUS 



<400> 38 

atgaaggtca ccaaactgct gcatttagag acgtacttgt tgttttaaat aaacgaacaa 60 

attaaaatgt ctgataatgg accccaatca aaccaacgta gtgccccccg cattacattt 120 

ggtggaccca cagattcaac tgacaataac cagaatggag gacgcaatgg ggcaaggcca 180 

aaacagcgcc gaccccaagg tttacccaat aatactgcgt cttggttcac agctctcact 240 

cagcatggca aggaggaact tagattccct cgaggccagg gcgttccaat caacaccaat 300 
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agtggtccag atgaccaaat tggctactac cgaagagcta cccgacgagt tcgtggtggt 
gacggcaaaa tgaaagagct cagccccaga tggtacttct attacctagg aactggccca 
gaagcttcac ttccctacgg cgctaacaaa gaaggcatcg tatgggttgc aactgaggga 
gccttgaata cacccaaaga ccacattggc acccgcaatc ctaataacaa tgctgccacc 
gtgctacaac ttcctcaagg aacaacattg ccaaaaggct tctacgcaga gggaagcaga 
ggcggcagtc aagcctcttc tcgctcctca tcacgtagtc gcggtaattc aagaaattca 
actcctggca gcagtagggg aaattctcct gctcgaatgg ctagcggagg tggtgaaact 
gccctcgcgc tattgctgct agacagattg aaccagcttg agagcaaagt ttctggtaaa 
ggccaacaac aacaaggcca aactgtcact aagaaatctg ctgctgaggc atctaaaaag 
cctcgccaaa aacgtactgc cacaaaacag tacaacgtca ctcaagcatt tgggag r acgt 
ggtccagaac aaacccaagg aaatttcggg gaccaagacc taatcagaca aggaactgat 
tacaaacatt ggccgcaaat tgcacaattt gctccaagtg cctctgcatt ctttggaatg 
tcacgcattg gcatggaagt cacaccttcg ggaacatggc tgacttatca tggagccatt 
aaattggatg acaaagatcc acaattcaaa gacaacgtca tactgctgaa caagcacatt 
gacgcataca aaacattccc accaacagag cctaaaaagg acaaaaagaa aaagactgat 
gaagctcagc ctttgccgca gagacaaaag aagcagccca ctgtgactct tcttcctgcg 
gctgacatgg atgatttctc cagacaactt caaaattcca tgagtggagc ttctgctgat 
tcaactcagg cataaacact catgatgacc acacaaggca gatgggctat gtaaacg 



<210> 39 

<211> 204 

<212> DNA 

<213> CORONAVIRUS 



<210> 40 

<211> 809 

<212> DNA 

<213> CORONAVIRUS 



360 
420 
480 
540 
600 
660 
720 
780 
840 
900 
960 
1020 
1080 
1140 
1200 
1260 
1320 
1377 



SSttagJtt tttacctacc caggaaaagc caaccaacct cgatctcttg tagatctgtt 60 
ctctaaacga actttaaaat ctgtgtagct gtcgctcggc tgcatgccta gtgcacctac 120 
gcagtataaa caataataaa ttttactgtc gttgacaaga aacgagtaac tcgtccctct 
tctgcagact gcttacggtt tcgt 



180 
204 
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<400> 40 

actcaagcat rtgggagacg tggtccagaa caaacccaag gaaatttcgg ggaccaagac 60 

ctaatcagac aaggaactga ttacaaacat tggccgcaaa ttgcacaatt tgctccaagt 120 

gcctctgcat tctttggaat gtcacgcatt ggcatggaag tcacaccttc gggaacatgg 180 

ctgacttatc atggagccat taaattggat gacaaagatc cacaattcaa agacaacgtc 240 

atactgctga acaagcacat tgacgcatac aaaacattcc caccaacaga gcctaaaaag 300 

gacaaaaaga aaaagactga tgaagctcag cctttgccgc agagacaaaa gaagcagccc 360 

actgtgactc ttcttcctgc ggctgacatg gatgatttct ccagacaact tcaaaattcc 420 

atgagtggag cttctgctga ttcaactcag gcataaacac tcatgatgac cacacaaggc 480 

agatgggcta tgtaaacgtt ttcgcaattc cgtttacgat acatagtcta ctcttgtgca 540 

gaatgaattc tcgtaactaa acagcacaag taggtttagt taactttaat ctcacatagc 600 

aatctttaat caatgtgtaa cattagggag gacttgaaag agccaccaca ttttcatcga 660 

ggccacgcgg agtacgatcg agggtacagt gaataatgct agggagagct gcctatatgg 720 

aagagcccta atgtgtaaaa ttaattttag tagtgctatc cccatgtgat tttaatagct 780 

tcttaggaga atgacaaaaa aaaaaaaaa 809 

<210> 41 

<211> 448 

<212> DNA 

<213> CORONAVIRUS 

<400> 41 

aatgaacaca tagggctgtt caagctgggg cagtacgcct ttttccagct ctactagacc 60 

acaagtgcca tttttgaggt gttcacgtgc ctccgatagg gcctcttcca cagagtcccc 120 

gaagccacgc actagcacgt ctctaacctg aaggacaggc aaactgagtt ggacgtgtgt 180 

tttctcgttg acaccaagaa caaggctctc catcttacct ttcggtcaca cccggacgaa 240 

acctaggtat gctgatgatc gactgcaaca cggacgaaac cgtaagcagt ctgcagaaga 300 

gggacgagtt actcgtttct tgtcaacgac agtaaaattt attattgttt atactgcgta 360 

ggtgcactag gcatgcagcc gagcgacagc tacacagatt ttaaagttcg tttagagaac 420 

agatctacaa gagatcgagg ttggttgg 448 

<210> 42 

<211> 2033 

<212> DNA 

<213> CORONAVIRUS 
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120 

180 

240 

300 

360 

420 

480 

540 

600 

660 

720 



S226CAS108.ST25 

ata?ctaggt ttcgtccggg tgtgaccgaa aggtaagatg gagagccttg ttcttggtgt 60 
caacgagaaa acacacgtcc aactcagttt gcctgtcctt caggttagag acgtgctagt 
gcgtggcttc ggggactctg tggaagaggc cctatcggag gcacgtgaac acctcaaaaa 
tggcacttgt ggtctagtag agctggaaaa aggcgtactg ccccagcttg aacagcccta 
tgtgttcatt aaacgttctg atgccttaag caccaatcac ggccacaagg tcgttgagct 
ggttgcagaa atggacggca ttcagtacgg tcgtagcggt ataacactgg gagtactcgt 
gccacatgtg ggcgaaaccc caattgcata ccgcaatgtt cttcttcgta agaacggtaa 
taagggagcc ggtggtcata gctatggcat cgatctaaag tcttatgact taggtgacga 
gcttggcact gatcccattg aagattatga acaaaactgg aacactaagc atggcagtgg 
tgcactccgt gaactcactc gtgagctcaa tggaggtgca gtcactcgct atgtcgacaa 
caatttctgt ggcccagatg ggtaccctct tgattgcatc aaagattttc tcgcacgcgc 
gggcaagtca atgtgcactc tttccgaaca acttgattac atcgagtcga agagaggtgt 
ctactgctgc cgtgaccatg agcatgaaat tgcctggttc actgagcgct ctgataagag 780 
ctacgagcac cagacaccct tcgaaattaa gagtgccaag aaatttgaca ctttcaaagg 
ggaatgccca aagtttgtgt ttcctcttaa ctcaaaagtc aaagtcattc aaccacgtgt 
tgaaaagaaa aagactgagg gtttcatggg gcgtatacgc tctgtgtacc ctgttgcatc 
tccacaggag tgtaacaata tgcacttgtc taccttgatg aaatgtaatc attgcgatga 
agtttcatgg cagacgtgcg actttctgaa agccacttgt gaacattgtg gcactgaaaa 
tttagttatt gaaggaccta ctacatgtgg gtacctacct actaatgctg tagtgaaaat 
gccatgtcct gcctgtcaag acccagagat tggacctgag catagtgttg cagattatca 
caaccactca aacattgaaa ctcgactccg caagggaggt aggactagat gttttggagg 
ctgtgtgttt gcctatgttg gctgctataa taagcgtgcc tactgggttc ctcgtgctag 
tgctgatatt ggctcaggcc atactggcat tactggtgac aatgtggaga ccttgaatga 
ggatctcctt gagatactga gtcgtgaacg tgttaacatt aacattgttg gcgattttca 
tttgaatgaa gaggttgcca tcattttggc atctttctct gcttctacaa gtgcctttat 
tgacactata aagagtcttg attacaagtc tttcaaaacc attgttgagt cctgcggtaa 
ctataaagtt accaagggaa agcccgtaaa aggtgcttgg aacattggac aacagagatc 
agttttaaca ccactgtgtg gttttccctc acaggctgct ggtgttatca gatcaatttt 
tgcgcgcaca cttgatgcag caaaccactc aattcctgat ttgcaaagag cagctgtcac 
catacttgat ggtatttctg aacagtcatt acgtcttgtc gacgccatgg tttatacttc 
agacctgctc accaacagtg tcattattat ggcatatgta actggtggtc ttgtacaaca 
gacttctcag tggttgtcta atcttttggg cactactgtt gaaaaactca ggcctatctt 
tgaatggatt gaggcgaaac ttagtgcagg agttgaattt ctcaaggatg cttgggagat 



tctcaaattt ctcattacag gtgtttttga catcgtcaag ggtcaaatac agg 
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840 
900 
960 
1020 
1080 
1140 
1200 
1260 
1320 
1380 
1440 
1500 
1560 
1620 
1680 
1740 
1800 
1860 
1920 
1980 
2033 



S226CAS108.ST25 



<210> 43 

<211> 2018 

<212> DNA 

<213> CORONAVIRUS 



<400> 43 
ggattgaggc 


gaaacttagt 


gcaggagttg 


aatttctcaa 


ggatgcttgg 


gagattctca 


60 


aatttctcat 


tacaggtgtt 


tttgacatcg tcaagggtca 


aatacaggtt 


gcttcagata 


120 


acatcaagga 


ttgtgtaaaa 


tgcttcattg atgttgttaa 


caaggcactc gaaatgtgca 


180 


ttgatcaagt 


cactatcgct 


ggcgcaaagt tgcgatcact 


caacttaggt gaagtcttca 


240 


tcgctcaaag 


caagggactt 


taccgtcagt gtatacgtgg 


caaggagcag 


ctgcaactac 


300 


tcatgcctct 


taaggcacca 


aaagaagtaa cctttcttga 


aggtgattca catgacacag 


360 


tacttacctc 


tgaggaggtt 


gttctcaaga acggtgaact 


cgaagcactc gagacgcccg 


420 


ttgatagctt 


cacaaatgga 


gctatcgttg 


gcacaccagt 


ctgtgtaaat 


ggcctcatgc 


480 


tcttagagat 


taaggacaaa 


gaacaatact 


gcgcattgtc 


tcctggttta 


ctggctacaa 


540 


acaatgtctt 


tcgcttaaaa 


gggggtgcac 


caattaaagg 


tgtaaccttt 


ggagaagata 


600 


ctgtttggga 


agttcaaggt 


tacaagaatg 


tgagaatcac 


atttgagctt 


gatgaacgtg 


660 


ttgacaaagt 


gcttaatgaa 


aagtgctctg 


tctacactgt 


tgaatccggt 


accgaagtta 


720 


ctgagtttgc 


atgtgttgta 


gcagaggctg 


ttgtgaagac 


tttacaacca 


gtttctgatc 


780 


tccttaccaa 


catgggtatt 


gatcttgatg 


agtggagtgt 


agctacattc 


tacttatttg 


840 


atgatgctgg 


tgaagaaaac 


ttttcatcac 


gtatgtattg 


ttccttttac 


cctccagatg 


900 


aggaagaaga 


ggacgatgca 


gagtgtgagg 


aagaagaaat 


tgatgaaacc 


tgtgaacatg 


960 


agtacggtac 


agaggatgat 


tatcaaggtc 


tccctctgga 


atttggtgcc tcagctgaaa 


1020 


cagttcgagt 


tgaggaagaa 


gaagaggaag 


actggctgga 


tgatactact 


gagcaatcag 


1080 


agattgagcc 


agaaccagaa 


cctacacctg 


aagaaccagt 


taatcagttt 


actggttatt 


1140 


taaaacttac 


tgacaatgtt 


gccattaaat 


gtgttgacat 


cgttaaggag 


gcacaaagtg 


1200 


ctaatcctat 


ggtgattgta 


aatgctgcta acatacacct 


gaaacatggt 


ggtggtgtag 


. 1260 


caggtgcact 


caacaaggca 


accaatggtg 


ccatgcaaaa 


ggagagtgat 


gattacatta 


1320 


agctaaatgg 


ccctcttaca 


gtaggagggt 


cttgtttgct 


ttctggacat 


aatcttgcta 


1380 


agaagtgtct 


gcatgttgtt 


ggacctaacc 


taaatgcagg 


tgaggacatc 


cagcttctta 


1440 


aggcagcata 


tgaaaatttc 


aattcacagg 


acatcttact 


tgcaccattg 


ttgtcagcag 


1500 


gcatatttgg 


tgctaaacca 


cttcagtctt 


tacaagtgtg 


cgtgcagacg 


gttcgtacac 


1560 


aggtttatat 


tgcagtcaat 


gacaaagctc 


tttatgagca 


ggttgtcatg 


gattatcttg 


1620 


ataacctgaa 


gcctagagtg 


gaagcaccta aacaagagga 
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gccaccaaac acagaagatt 

i 


1680 



ccaaaactga 
cctgcattga 
tcttgtttgc 
aagatatgtc 
gtgatatcac 
caagagcttt 



ggagaaatct 
tgaggttacc 
tgatatcaat 
tttccttgag 
ttgtgttgta 
gaagaaagtg 



S226CAS108.ST25 
gtcgtacaga agcctgtcga tgtgaagcca aaaattaagg 
acaacactgg aagaaactaa gtttcttacc aataagttac 
ggtaagcttt accatgattc tcagaacatg cttagaggtg 
aaggatgcac cttacatggt aggtgatgtt atcactagtg 
ataccctcca aaaaggctgg tggcactact gagatgctct 
ccagttgatg agtatata 



<210> 44 

<211> 1442 

<212> DNA 

<213> CORONAVIRUS 



1740 
1800 
1860 
1920 
1980 
2018 



<400> 44 
ttgatgaggt 

ttgctgatat 

tgtctttcct 

tcacttgtgt 

ctttgaagaa 

gttatacact 

taccttcaga 

gagaaatgct 

gagccataat 

ttgactatgg 

cgaagctgaa 

gttttaatct 

cagtatcatc 

catctgagga 

attcaggaca 

accacactct 

aactaaagag 

acaacactaa 

gtccaacata 

gtaagacttt 

accatactct 

aatggaaatt 



taccacaaca 
caatggtaag 
tgagaaggat 
tgtaataccc 
agtgccagtt 
tgaggaagct 
agcacctaat 
tgctcatgct 
ggcaaccatc 
tgtccgattc 
ctctctaaat 
tgaagaggct 
accagatgct 
gcactttgta 
gcgtacagag 
ggagagcccc 
tctcttatcc 
tctccacaca 
cttggatggt 
ctttgtacta 
tgatgagagt 
tcctcaagtt 



ctggaagaaa 

ctttaccatg 

gcaccttaca 

tccaaaaagg 

gatgagtata 

aagactgctc 

gctaaggaag 

gaagagacaa 

caacgtaagt 

ttcttttata 

gagccgcttg 

gcgcgctgta 

gttactacat 

gaaacagttt 

ttaggtgttg 

gtcgagtttc 

ctgcgggagg 

cagcttgtgg 

gctgatgtta 

cctagtgatg 

tttcttggta 

ggtggtttaa 



ctaagtttct taccaataag 

attctcagaa catgcttaga 

tggtaggtga tgttatcact 

ctggtggcac tactgagatg 

taaccacgta ccctggacaa 

ttaagaaatg caaatctgca 

agattctagg aactgtatcc 

gaaaattaat gcctatatgc 

ataaaggaat taaaattcaa 

ctagtaaaga gcctgtagct 

tcacaatgcc aattggttat 

tgcgttctct taaagctcct 

ataatggata cctcacttcg 

ctttggctgg ctcttacaga 

aatttcttaa gcgtggtgac 

atcttgacgg tgaggttctt 

ttaagactat aaaagtgttc 

atatgtctat gacatatgga 

caaaaattaa acctcatgta 

acacactacg tagtgaagct 

ggtacatgtc tgctttaaac 

cttcaattaa atgggctgat 
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ttactcttgt 

ggtigaagata 

agtggtgata 

ctctcaagag 

ggatgtgctg 

ttttatgtac 

tggaatttga 

atggatgtta 

gagggcatcg 

tctattatta 

gtgacacatg 

gccgtagtgt 

tcatcaaaga 

gattggtcct 

aaaattgtgt 

tcacttgaca 

acaactgtgg 

cagcagtttg 

aatcatgagg 

ttcgagtact 

cacacaaaga 

aacaattgtt 



60 
120 
180 
240 
300 
360 
420 
480 
540 
600 
660 
720 
780 
840 
900 
960 
1020 
1080 
1140 
1200 
1260 
1320 



S226CAS108.ST25 

atttgtctag tgttttatta gcacttcaac agcttgaagt caaattcaat gcaccagcac 1380 

ttcaagaggc ttattataga gcccgtgctg gtgatgctgc taacttttgt gcactcatac 1440 

tc 1442 

<210> 45 

<211> 1050 

<212> DNA 

<213> CORONAVIRUS 



<400> 45 
atatgtctat 


gacatatgga 


cagcagtttg 


gtccaacata 


cttggatggt 


gctgatgtta 


60 


caaaaattaa 


acctcatgta 


aatcatgagg 


gtaagacttt 


ctttgtacta 


cctagtgatg 


120 


acacactacg 


tagtgaagct 


ttcgagtact 


accatactct 


tgatgagagt 


tttcttggta 


180 




tnrtttaaar 
Ly l_ L L tdactL 






tcctcaaatt 


aatoatttaa 


240 


cttcaattaa 


atgggctgat 


aacaattgtt 


atttgtctag 


tgttttatta 


gcacttcaac 


300 


agcttgaagt 


caaattcaat 


gcaccagcac 


ttcaagaggc 


ttattataga 


gcccgtgctg 


360 


gtgatgctgc 


taacttttgt 


gcactcatac 


tcgcttacag 


taataaaact 


gttggcgagc 


420 


ttggtgatgt 


cagagaaact 


atgacccatc 


ttctacagca 


tgctaatttg 


gaatctgcaa 


480 


agcgagttct 


taatgtggtg 


tgtaaacatt 


gtggtcagaa 


aactactacc 


ttaacgggtg 


540 


tagaagctgt 


gatgtatatg 


ggtactctat 


cttatgataa 


tcttaagaca 


ggtgtttcca 


600 


ttccatgtgt 


gtgtggtcgt 


gatgctacac 


aatatctagt 


acaacaagag 


tcttcttttg 


660 


ttatgatgtc 


tgcaccacct 


gctgagtata 


aattacagca 


aggtacattc 


ttatgtgcga 


720 


atgagtacac 


tggtaactat 


cagtgtggtc 


attacactca 


tataactgct 


aaggagaccc 


780 


tctatcgtat 


tgacggagct 


caccttacaa 


agatgtcaga 


gtacaaagga 


ccagtgactg 


840 


atgttttcta 


caaggaaaca 


tcttacacta 


caaccatcaa 


gcctgtgtcg 


tataaactcg 


900 


atggagttac 


ttacacagag 


attgaaccaa 


aattggatgg 


gtattataaa 


aaggataatg 


960 


cttactatac 


agagcagcct 


atagaccttg 


taccaactca 


accattacca 


aatgcgagtt 


1020 


ttgataattt 


caaactcaca 


tgttctaaca 








1050 



<210> 46 

<211> 1995 

<212> DNA 

<213> CORONAVIRUS 

<400> 46 

tttgtgcact catactcgct tacagtaata aaactgttgg cgagcttggt gatgtcagag 60 
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aaactatgac ccatcttcta cagcatgcta atttggaatc tgcaaagcga gttcttaatg 120 

tggtgtgtaa acattgtggt cagaaaacta ctaccttaac gggtgtagaa gctgtgatgt 180 

atatgggtac tctatcttat gataatctta agacaggtgt ttccattcca tgtgtgtgtg 240 

gtcgtgatgc tacacaatat ctagtacaac aagagtcttc ttttgttatg atgtctgcac 300 

cacctgctga gtataaatta cagcaaggta cattcttatg tgcgaatgag tacactggta 360 

actatcagtg tggtcattac actcatataa ctgctaagga gaccctctat cgtattgacg 420 

gagctcacct tacaaagatg tcagagtaca aaggaccagt gactgatgtt ttctacaagg 480 

aaacatctta cactacaacc atcaagcctg tgtcgtataa actcgatgga gttacttaca 540 

cagagattga accaaaattg gatgggtatt ataaaaagga taatgcttac tatacagagc 600 

agcctataga ccttgtacca actcaaccat taccaaatgc gagttttgat aatttcaaac 660 

tcacatgttc taacacaaaa tttgctgatg atttaaatca aatgacaggc ttcacaaagc 720 

cagcttcacg agagctatct gtcacattct tcccagactt gaatggcgat gtagtggcta 780 

ttgactatag acactattca gcgagtttca agaaaggtgc taaattactg cataagccaa 840 

ttgtttggca cattaaccag gctacaacca agacaacgtt caaaccaaac acttggtgtt 900 

tacgttgtct ttggagtaca aagccagtag atacttcaaa ttcatttgaa gttctggcag 960 

tagaagacac acaaggaatg gacaatcttg cttgtgaaag tcaacaaccc acctctgaag 1020 

aagtagtgga aaatcctacc atacagaagg aagtcataga gtgtgacgtg aaaactaccg 1080 

aagttgtagg caatgtcata cttaaaccat cagatgaagg tgttaaagta acacaagagt 1140 

taggtcatga ggatcttatg gctgcttatg tggaaaacac aagcattacc attaagaaac 1200 

ctaatgagct ttcactagcc ttaggtttaa aaacaattgc cactcatggt attgctgcaa 1260 

ttaatagtgt tccttggagt aaaattttgg cttatgtcaa accattctta ggacaagcag 1320 

caattacaac atcaaattgc gctaagagat tagcacaacg tgtgtttaac aattatatgc 1380 

cttatgtgtt tacattattg ttccaattgt gtacttttac taaaagtacc aattctagaa 1440 

ttagagcttc actacctaca actattgcta aaaatagtgt taagagtgtt gctaaattat 1500 

gtttggatgc cggcattaat tatgtgaagt cacccaaatt ttctaaattg ttcacaatcg 1560 

ctatgtggct attgttgtta agtatttgct taggttctct aatctgtgta actgctgctt 1620 

ttggtgtact cttatctaat tttggtgctc cttcttattg taatggcgtt agagaattgt 1680 

atcttaattc gtctaacgtt actactatgg atttctgtga aggttctttt ccttgcagca 1740 

tttgtttaag tggattagac tcccttgatt cttatccagc tcttgaaacc attcaggtga 1800 

cgatttcatc gtacaagcta gacttgacaa ttttaggtct ggccgctgag tgggttttgg 1860 

catatatgtt gttcacaaaa ttcttttatt tattaggtct ttcagctata atgcaggtgt 1920 

tctttggcta ttttgctagt catttcatca gcaattcttg gctcatgtgg tttatcatta 1980 

gtattgtaca aatgg 1995 
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<210> 47 

<211> 1884 

<212> DNA 

<213> CORONAVIRUS 

<400> 47 

aattcttggc tcatgtggtt tatcattagt attgtacaaa tggcacccgt ttctgcaatg 60 

gttaggatgt acatcttctt tgcttctttc tactacatat ggaagagcta tgttcatatc 120 

atggatggtt gcacctcttc gacttgcatg atgtgctata agcgcaatcg tgccacacgc 180 

gttgagtgta caactattgt taatggcatg aagagatctt tctatgtcta tgcaaatgga 240 

ggccgtggct tctgcaagac tcacaattgg aattgtctca attgtgacac attttgcact 300 

ggtagtacat tcattagtga tgaagttgct cgtgatttgt cactccagtt taaaagacca 360 

atcaacccta ctgaccagtc atcgtatatt gttgatagtg ttgctgtgaa aaatggcgcg 420 

cttcacctct actttgacaa ggctggtcaa aagacctatg agagacatcc gctctcccat 480 

tttgtcaatt tagacaattt gagagctaac aacactaaag gttcactgcc tattaatgtc 540 

atagtttttg atggcaagtc caaatgcgac gagtctgctt ctaagtctgc ttctgtgtac 600 

tacagtcagc tgatgtgcca acctattctg ttgcttgacc aagctcttgt atcagacgtt 660 

ggagatagta ctgaagtttc cgttaagatg tttgatgctt atgtcgacac cttttcagca 720 

acttttagtg ttcctatgga aaaacttaag gcacttgttg ctacagctca cagcgagtta 780 

gcaaagggtg tagctttaga tggtgtcctt tctacattcg tgtcagctgc ccgacaaggt 840 

gttgttgata ccgatgttga cacaaaggat gttattgaat gtctcaaact ttcacatcac 900 

tctgacttag aagtgacagg tgacagttgt aacaatttca tgctcaccta taataaggtt 960 

gaaaacatga cgcccagaga tcttggcgca tgtattgact gtaatgcaag gcatatcaat 1020 

gcccaagtag caaaaagtca caatgtttca ctcatctgga atgtaaaaga ctacatgtct 1080 

ttatctgaac agctgcgtaa acaaattcgt agtgctgcca agaagaacaa catacctttt 1140 

agactaactt gtgctacaac tagacaggtt gtcaatgtca taactactaa aatctcactc 1200 

aagggtggta agattgttag tacttgtttt aaacttatgc ttaaggccac attattgtgc 1260 

gttcttgctg cattggtttg ttatatcgtt atgccagtac atacattgtc aatccatgat 1320 

ggttacacaa atgaaatcat tggttacaaa gccattcagg atggtgtcac tcgtgacatc 1380 

atttctactg atgattgttt tgcaaataaa catgctggtt ttgacgcatg gtttagccag 1440 

cgtggtggtt catacaaaaa tgacaaaagc tgccctgtag tagctgctat cattacaaga 1500 

gagattggtt tcatagtgcc tggcttaccg ggtactgtgc tgagagcaat caatggtgac 1560 

ttcttgcatt ttctacctcg tgtttttagt gctgttggca acatttgcta cacaccttcc 1620 

aaactcattg agtatagtga ttttgctacc tctgcttgcg ttcttgctgc tgagtgtaca 1680 

atttttaagg atgctatggg caaacctgtg ccatattgtt atgacactaa tttgctagag 1740 
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ggttctattt cttatagtga gcttcgtcca gacactcgtt atgtgcttat ggatggttcc 1800 

atcatacagt ttcctaacac ttacctggag ggttctgtta gagtagtaac aacttttgat 1860 

gctgagtact gtagacatgg taca 1884 

<210> 48 

<211> 2020 

<212> DNA 

<213> CORONAVIRUS 

cactcgttat gtgcttatgg atggttccat catacagttt cctaacactt acctggaggg 60 

ttctgttaga gtagtaacaa cttttgatgc tgagtactgt agacatggta catgcgaaag 120 

gtcagaagta ggtatttgcc tatctaccag tggtagatgg gttcttaata atgagcatta 180 

cagagctcta tcaggagttt tctgtggtgt tgatgcgatg aatctcatag ctaacatctt 240 

tactcctctt gtgcaacctg tgggtgcttt agatgtgtct gcttcagtag tggctggtgg 300 

tattattgcc atattggtga cttgtgctgc ctactacttt atgaaattca gacgtgtttt 360 

tggtgagtac aaccatgttg ttgctgctaa tgcacttttg tttttgatgt ctttcactat 420 

actctgtctg gtaccagctt acagctttct gccgggagtc tactcagtct tttacttgta 480 

cttgacattc tatttcacca atgatgtttc attcttggct caccttcaat ggtttgccat 540 

gttttctcct attgtgcctt tttggataac agcaatctat gtattctgta tttctctgaa 600 

gcactgccat tggttcttta acaactatct taggaaaaga gtcatgttta atggagttac 660 

atttagtacc ttcgaggagg ctgctttgtg tacctttttg ctcaacaagg aaatgtacct 720 

aaaattgcgt agcgagacac tgttgccact tacacagtat aacaggtatc ttgctctata 780 

taacaagtac aagtatttca gtggagcctt agatactacc agctatcgtg aagcagcttg 840 

ctgccactta gcaaaggctc taaatgactt tagcaactca ggtgctgatg ttctctacca 900 

accaccacag acatcaatca cttctgctgt tctgcagagt ggttttagga aaatggcatt 960 

cccgtcaggc aaagttgaag ggtgcatggt acaagtaacc tgtggaacta caactcttaa 1020 

tggattgtgg ttggatgaca cagtatactg tccaagacat gtcatttgca cagcagaaga 1080 

catgcttaat cctaactatg aagatctgct cattcgcaaa tccaaccata gctttcttgt 1140 

tcaggctggc aatgttcaac ttcgtgttat tggccattct atgcaaaatt gtctgcttag 1200 

gcttaaagtt gatacttcta accctaagac acccaagtat aaatttgtcc gtatccaacc 1260 

tggtcaaaca ttttcagttc tagcatgcta caatggttca ccatctggtg tttatcagtg 1320 

tgccatgaga cctaatcata ccattaaagg ttctttcctt aatggatcat gtggtagtgt 1380 

tggttttaac attgattatg attgcgtgtc tttctgctat atgcatcata tggagcttcc 1440 

aacaggagta cacgctggta ctgacttaga aggtaaattc tatggtccat ttgttgacag 1500 
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acaaactgca 


caggctgcag 


gtacagacac 


aaccataaca 


ttaaatgttt 


tggcatggct 


1560 


gtatgctgct 


gttatcaatg 


gtgataggtg 


gtttcttaat 


agattcacca 


ctactttgaa 


1620 


tgactttaac 


cttgtggcaa 


tgaagtacaa 


ctatgaacct 


ttgacacaag 


atcatgttga 


1680 


catattggga cctctttctg 


ctcaaacagg 


aattgccgtc 


ttagatatgt 


gtgctgcttt 


1740 


gaaagagctg 


ctgcagaatg 


gtatgaatgg 


tcgtactatc 


cttggtagca 


ctattttaga 


1800 


agatgagttt 


acaccatttg 


atgttgttag 


acaatgctct 


ggtgttacct 


tccaaggtaa 


1860 


gttcaagaaa attgttaagg 


gcactcatca 


ttggatgctt 


ttaactttct 


tgacatcact 


1920 


attgattctt gttcaaagta 


cacagtggtc 


actgtttttc 


tttgtttacg 


agaatgcttt 


1980 


cttgccattt actcttggta 


ttatggcaat 


tgctgcatgt 






2020 


<210> 49 














<211> 2040 












<212> DNA 














<213> CORONAVIRUS 












<400> 49 
agcatttcca 


gcctgaagac 


gtactgtagc 


agctaaactg 


cccagcacca 


tacctctatt 


60 


taggttgttt 


aagcctttga 


tgaagtacaa 


gtatttcact 


ttaggccctt 


ttggtgtgtc 


120 


tgtaacaaac 


ctacaaggtg 


gttccagttc 


tgtgtaaatt 


gtacctgtac 


catcactctt 


180 


agggaatcta 


gcccatttga 


gatcttggtg 


gtctgatagt 


aatgccagca 


caaacctacc 


240 


tcccttcgaa 


ttgttatagt 


aggcaagtgc 


attgtcatca 


gtacaagctg 


tttgtgtggt 


300 


accagccgca 


caggacatct 


gtcgtagtgc 


tactggactc 


agttcattat 


tctgtagttt 


360 


aacagctgag 


ttggctctta 


gagctgtaac 


aataagaggc 


caagccaaat 


ttggtgaatt 


420 


gtccatgtta 


atttcactaa 


gttgaacaat 


cttgctatcc 


gcatcaacaa 


cttgctggat 


480 


ttcccagagt 


gcagatgcat 


atgtaaaggt 


gttaccatca 


caagtgttct 


tgtaggtacc 


540 


ataatcaggg 


acaacaacca 


tgagtttggc 


tgctgtagtc 


aatggtatga 


tgttgagtgg 


600 


aacacaacca 


tcacgcgcat 


tgttgataat 


gttgttaagt 


gcatcattat 


caagcttcct 


660 


aagcatagtg 


aagagcattg 


tttgcatagc 


actagttact 


tttgccctct 


tgtcctcaga 


720 


tcttgcctgt 


ttgtacattt 


gggtcatagc 


ctgatctgcc 


atcttttcca 


acttgcgttg 


780 


catggcagca 


tcacggtcaa 


actcagattt 


agccacattc 


aaagatttct 


ttaacttttt 


840 


gagaacgact 


tcagaatcac 


cattagctac 


agcctgctca 


taggcctcct 


gggcagtggc 


900 


ataagcggca 


tatgatggta 


aagaactaaa 


ttctgaagca 


atagcctgaa 


gagtagcacg 


960 


gttatcgagc 


atttcctcgc 


acaacctatt 


aatgtctaca 


gcaccctgca 


tggatagcaa 


1020 


aacagacaaa 


agagaaacca 


tcttctcgaa 


agcttcagtt 


gtgtcttttg 


caagaagaat 


1080 


atcattgtgg 


agttgtacac 


attgtgccca 


caatttagaa 
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gatgactcta 


ctctaagttg 


1140 
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ttgaagaacc gagagcagta ccacagatgt gcactttacg tcagacattt tagactgtac 1200 

agtagcaacc ttgatacatg gtttacctcc aatacccaac aacttaatgt taagcttgaa 1260 

agcatcaata ctactcttag gaggcaaaag cccctgggag ttcatatacc taaattcttg 1320 

tgtagagacc aagtagtcat aaacaccaag agtaagcctg aagtaacggt tgagtaaaca 1380 

gaaaaggcca aagtagcagc agcaacaata gcctaagaaa caataaacaa gcatgataca 1440 

ctgtaaggtg ttgccagtaa taaataacaa tgggtaatac tcaacacaca caaacactat 1500 

agctctagct aaaaacatga tagtcgtaac gacaccagaa tagttagagg ttacagaaat 1560 

aactaaggcc cacatggaaa tagcttgatc taaagcatta ccatagtaga ctttgtaaac 1620 

aagtgtaatg acattcatca gtgtccaaac acgtctagca gcatcatcat aaacagtgcg 1680 

agctgtcatg agaataagca aaactaaagc tgaagcatac ataacacaat ccttaagcct 1740 

ataaccagac aagctagtgt cagccaattc aagccatgtc atgatacgca tcacccagct 1800 

agcaggcatg tagaccatat taaagtaagc aactgttgca agagaaggta acagaaacaa 1860 

gcacaagaat gcgtgcttat gcttaacaag cagcatagca catgcagcaa ttgccataat 1920 

accaagagta aatggcaaga aagcattctc gtaaacaaag aaaaacagtg accactgtgt 1980 

actttgaaca agaatcaata gtgatgtcaa gaaagttaaa agcatccaat gatgagtgca 2040 

<210> 50 

<211> 2012 

<212> DNA 

<213> CORONAVIRUS 

cttgtaggtt tgttacagac acaccaaaag ggcctaaagt gaaatacttg tacttcatca 60 

aaggcttaaa caacctaaat agaggtatgg tgctgggcag tttagctgct acagtacgtc 120 

ttcaggctgg aaatgctaca gaagtacctg ccaattcaac tgtgctttcc ttctgtgctt 180 

ttgcagtaga ccctgctaaa gcatataagg attacctagc aagtggagga caaccaatca 240 

ccaactgtgt gaagatgttg tgtacacaca ctggtacagg acaggcaatt actgtaacac 300 

cagaagctaa catggaccaa gagtcctttg gtggtgcttc atgttgtctg tattgtagat 360 

gccacattga ccatccaaat cctaaaggat tctgtgactt gaaaggtaag tacgtccaaa 420 

tacctaccac ttgtgctaat gacccagtgg gttttacact tagaaacaca gtctgtaccg 480 

tctgcggaat gtggaaaggt tatggctgta gttgtgacca actccgcgaa cccttgatgc 540 

agtctgcgga tgcatcaacg tttttaaacg ggtttgcggt gtaagtgcag cccgtcttac 600 

accgtgcggc acaggcacta gtactgatgt cgtctacagg gcttrttgata tttacaacga 660 

aaaagttgct ggttttgcaa agttcctaaa aactaattgc tgtcgcttcc aggagaagga 720 

tgaggaaggc aatttattag actcttactt tgtagttaag aggcatacta tgtctaacta 780 
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v_L.cla.v_ci Lyaa 


yayaL La ILL 


a 1" t\ 7i c 1* "t* n n t* 

a, LaaL <- Lyy l 


taaagattgt ccagcggttg 


ctgtccatga 


840 


V.LLLL L Laay 


l l Lay cty Lay 


afnntna rat 
ci Lyy LyaLu i_ 


ggtaccacat atatcacgtc 


agcgtctaac 


900 


Laaa LaLaLa 


ct Lyy l. LyaLL. 


Lay LLLa Ly L. 


tctacgtcat tttgatgagg 


gtaattgtga 


960 


LcH_d L Lddaa 


LJdaaldLLLy 


Li,ctL,a LaLad 


ttgctgtgat gatgattatt tcaataagaa 


1020 


ggaxxggxax 


gacxxcgxag 


o ft ^ O "t" f "t~ !3 

agaaxccxga 


catct'tacac axat:a1:ac"ta 

v.u l\. l Lu\.y«- y LUl,CH.yV.».tl 


actxaaataa 


IUOU 


gcgxgxacgc 


caaxcaxxax 


xaaagacxg l 


cilcicilll l^v. yu L.y »- LCI ty V, 


y Lya v-y Layy 


1 1 A(\ 


caxxg xaggc 


gxacxgacax 


xagaxaaxca 


yyaLLLLaaL yyyaciv- Lyy i_ 


oLya i_ t- LLyy 


1 ?nn 

X£.\)\) 


xgax xxcgxa 


caagxagcac 


caggcxgcgg 


ayLLL.L,LaLL y LyyaLLLuL 


at*l*artr3tt 

a L LuL LLa L L 




gcxgaxgccc 


axccxcacxx 


xgacxagggc 


a1~1"onrt*oi~X aaatrrrata 

uLLyuLLyjLL yay LLVaVULu 


tflnatGrtaa 

L yy« »-y l. tya 


JL3ZU 


xcxcgcaaaa 


ccacxxaxxa 


agxgggaxxx 


gctgaaatat gattttacgg 


aagagagact 


IjoU 


XXgXCTCXXC 


gaccgxxaxx 


xxaaaxaxxg 


ggaccagaca taccatccca 


attgtattaa 


T AAf\ 


cxgxxxggax 


gaxaggxgxa 


xccxxcaxxg 


tgcaaacttt aatgtgttat 


tttctactgt 


J.3UU 


gxxxccaccx 


acaagxxxxg 


gaccacxagx 


aagaaaaata tttgtagatg 


gtgttccttt 


-1 CCA 
1DOU 


xgxxgxxxca 


acxggaxacc 


axxxxcgxga 


gttaggagtc gtacataatc 


^99atgtaaa 




cxxacaxagc 


xcgcgxcxca 


gxxxcaagga 


acttttagtg tatgctgctg 


atccagctat 


IDoU 


gcatgcagct 


tctggcaatt 


tattgctaga 


taaacgcact acatgctttt 


cagtagctgc 


1740 


actaacaaac 


aatgttgctt 


ttcaaactgt 


caaacccggt aattttaata 


aagactttta 


1800 


tgactttgct 


gtgtctaaag 


gtttctttaa 


ggaaggaagt tctgttgaac 


taaaacactt 


1860 


cttctttgct 


caggatggca 


acgctgctat 


cagtgattat gactattatc gttataatct 


1920 


gccaacaatg 


tgtgatatca 


gacaactcct 


attcgtagtt gaagttgttg 


ataaatactt 


1980 


tgattgttac 


gatggtggct 


gtattaatgc 


ca 




2012 


<210> 51 












<211> 1877 










<212> DNA 












<213> CORONAVIRUS 










<400> 51 

gtacttcgcg tacagtggca 


ataccatatg 


acagcttaaa tgtttcctca gtggctttga 


60 


gcgtttctgc tgcgaaaagc 


ttgagtctct 


cagtacaagt gttggcaagt 


atgtaatcgc 


120 


cagcattagt 


ccaatcacat 


gttgctatcg 


cattgaagtc agtgacattg tcactgccta 


180 


cacatgtgtt tttgtataaa 


ccaaaaacct 


gaccattagc acataatgga aaactaatgg 


240 


gaggcttatg tgacttgcaa 


taatagctca 


tacctcctag atacagttgt 


gtcacatcag . 


300 


tgacatcaca acctggggca 


ttgcaaacat 


agggattaac agacaacact 


aatttgtgtg 


360 


atgttgaaat gacatggtca 


tagcagcact 


tgcaacatag gaatggtctc 
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ctaatacagg 


420 



caccgcaacg 
ctgtatgtgg 
cattagttag 
ttctaatgta 
taagtgggta 
ttttgacaat 
gcaggtacac 
gaggtccttt 
tttgataata 
agttactgtt 
gcaggtaagc 
actcatagag 
ttgaaagaag 
cataagcagt 
cacacatgac 
gtgataagtt 
gcatgttagg 
ctacatcact 
caattaccac 
gtctatttgt 
cactaatggc 
acgcgaaaag 
cccatttatt 
cattaataca 
ggagttgtct 



aagtgaagtc 
tgtgtacata 
cattacggaa 
ttgtaaatac 
agcatcaata 
atcatcgaca 
gtaatcatct 
agtaaggtca 
aagaactgcc 
atagcacaca 
gtaaaactca 
cctgtgttgt 
tgcatttaca 
tgtagcatca 
catctcactt 
acagcaagtg 
catggctctg 
gtaaacagtt 
agtagctcct 
catagtacta 
atacttaaga 
tgcatcttga 
aaatgggaaa 
gccaccatcg 
gatatca 



tgtgaattgc 
gcctcataaa 
tacatgtcca 
aagtgaaaga 
gccagtgaca 
aaacagcctg 
ccttgtttaa 
gtctcagtcc 
ttaaagttct 
acggcatcat 
tccacgaatt 
agattgcgga 
ttggctgtaa 
ccggatgatg 
aatacttgcg 
ttatgtttgc 
tcacattttg 
tttaacatat 
ctagtggcgg 
cagatagaga 
ttcatttgag 
tcctcataac 
ccagctgatt 
taacaatcaa 



S226CA5108. 
acaatacaca 
actcaggttc 
acatgtggcc 
catcagcata 
cgaacctttc 
cgcctaatat 
ctagcattgt 
aacattttgc 
taatgctagc 
cagaaagaat 
catgatcaac 
catacttgtc 
cagcttgaca 
ttccacctgg 
cacactcgtt 
gagcaagaac 
gataatccca 
tatgccagcc 
ctattgactt 
caccagctac 
ttatagtagg 
tcattgagtc 
tatccagatt 
agtatttatc 



ST25 

agcacctaca 
ccagtaccgt 
agtaagctca 
ctcctgatta 
aatcataagt 
tcttgatgga 
atgctgtgag 
ctcagacatg 
tactaaacct 
catcatggag 
atccctattt 
agctatctta 
aatgttaaag 
tttaacatat 
agctaacctg 
aagagaggcc 
acccataagg 
accgtaaaac 
caataatttc 
ggtgcgagct 
gatgacatta 
ataataaagt 
gttaacgatt 
aacaacttca 



gcctgcaaga 

gaggtgttat 

tcatgtaact 

ggatgttttg 

gtaccatctg 

tctgggtaag 

caaaattcgt 

aacacartat 

tgagccgcat 

aaatgtttac 

ctatagagac 

ttaccatcag 

acactattag 

agtgagccgc 

tagaaacggt 

attatcctaa 

tgtggagttt 

ttgcttgttc 

tgatgaaact 

ctattctttg 

cgcttagtat 

ctagccttac 

acttggttgg 

actacgaata 



480 
540 
600 
660 
720 
780 
840 
900 
960 
1020 
1080 
1140 
1200 
1260 
1320 
1380 
1440 
1500 
1560 
1620 
1680 
1740 
1800 
1860 
1877 



<210> 52 

<211> 2051 

<212> DNA 

<213> CORONAVIRUS 



<400> 52 

tcaggtccaa tcttgacaaa gtacttcatt 
acgaacacga ctctgtctga caatcctttc 
atacgcacta cattccaggg caagccttta 



gatgtaagct caaagccatg cgcccaaagg 60 

agtgtatcac tgagcatttg tactatctta 120 

tacatgagtg gtataagatg tttaaactgg 180 
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tcacctggtg gaggttttgc attaactctg gtgaattctg tgttattttc agtgtcaaca 240 

taaccagtcg gtacagctac taagttaaca cctgtagaaa atcctagctg gagaggtagg 300 

ttagtaccca cagcatctct agttgcatga cagccctcta catcaaagcc aatccacgca 360 

cgaacgtgac gaatagcttc ttcgcgggtg ataaacatat tagggtaacc attgacttgg 420 

taattcattt tgaaacccat catagagatg agtctacggt aggtcatgtc ctttggtatg 480 

cctggtatgt caacacataa tccttcagtc ttgaacttta tatcaacgct gaggtgtgta 540 

ggtgcctgtg taggatgaag accagtaatg atcttactac agtccttaaa aagtccagtt 600 

acattttctg cttgtaatgt agccacattg cgacgtggta tttctagact tgtaaattgc 660 

agtttgtcat aaagatctct atcagacatt atgcacaaaa tgccaatttt tgcccttgtg 720 

atagccacat tgaagcggtt gacattacaa gagtgtgctg tttcagtagt ttgtgtgaat 780 

atgacatagt catattcaga accctgtgat gaatcaacag tctgcgtagg caatcctaag 840 

atttttgaag ctacagcgtt ctgtgaatta taaggtgaga taaaaacagc ttttctccaa 900 

gcaggattgc gtgtaagaaa ttctcttaca acgcctattt gaggtctgtt gattgcagat 960 

gaaacatcat gtgtaataac acctttgtag aacattttga agcattgagc tgacttatcc 1020 

ttgtgtgctt ttagcttatt gtcataaact aaagcactca cagtgtcaac aatttcagca 1080 

ggacaacggc gacaagttcc aaggaacatg tctggaccta ttgttttcat aagtctgcac 1140 

actgaattaa aatattctgg ttctagtgtg cctttagtca gcaatgtgcg gggggctggt 1200 

aattgagcag gatcgccaat atagacgtag tgttttgcac gaagtctagc attgacaaca 1260 

ctcaagtcat aattagtagc catagagatt tcatcaaaga ctacaatgtc agcagttgtt 1320 

tctggcaatg catttacagt gcagaaaaca tactgttcta gtgttgaart cactttgaat 1380 

ttatcaaaac actctacgcg cgcacgcgca ggtatgattc tactacattt atctatgggc 1440 

aaatatttta atgccttttc acatagggca tcaacagctg catgagagca tgccgtatac 1500 

actatgcgag cagatgggta atagagagca agtccgatgg caaaatgact ctnaccagta 1560 

ccaggtggtc cttggagtgt agagtacttt tgcatgccga ccttttgata atttgcaaca 1620 

ttgctagaaa actcatctga gatgttgagt gttgggtaca agccagtaat tctcacatag 1680 

tgctcttgtg gcactagagt aggtgcacta agtggcatta cagtgtgaga tgtcaacaca 1740 

aagtaatcac caacattcaa cttgtatgtc gtagtacctc tgtacacaac agcatcacca 1800 

tagtcacctt tttcaaaggt gtactctcca atctgtactt tactattttt agttacacgg 1860 

taaccagtaa agacatagtt tctgttcaat ggtggtctag gttttccaac ctcccatgaa 1920 

agatgcaatt ctctgtcaga gagtacttcg cgtacagtgg caataccata tgacagctta 1980 

aatgtttcct cagtggcttt gagcgtttct gctgcgaaaa gcttgagtct ctcagtacaa 2040 

gtgttggcaa g 2051 



.<210> 53 
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<211> 2075 

<212> DNA 

<213> CORONAVIRUS 



?gc??gtagt tttgggtaga aggtttcaac atgtccatcc ttacaccaaa gcatgaatga 60 

aatttcagca tagtcaattg taaccttgac cacttttgaa atcactgaca aatcttgtga 

ctttattatc tcgacaaagt catcaagtaa aagatcaatc acagaacaca cacattttga 

tgaacctgtt tgcgcatctg ttatgaagta atttttcact gtgctgtcca tagggataaa 240 

atcctctaat ttaagtggtg aatcttgtga gcgcttggct aagcctatca ttaaatgaag 300 

accgccaagt tgtccatgac tgaaatctcc ataaacgatg tgttcgaagg catagccctc 360 

gagcttatat cgctgtatga attcatccat agcgagctcg agaaagtcag tttccatttg 420 

tgatctgggc ttaaaatcct ctaagtctct gctctgagta aagtaggttt caggcaactg 480 

ttgaataatg ccgtctactt tcttaaagta gttaaactgt gtttttactg attctccaat 540 

taatgtgact ccattgacgc tagcttgtgc tggtcccttt gaaggtgtta gacctttgac 

tgaaccttct gttattaaaa caccattacg ggcgtttcta aaaaggtcta cctgtccttc 

cactctacca tcaaacaaga cagtaagtga agaacaagca ctctcagtag gtttcttggc 720 

aatgtcagtc attgtgcaga cacctattgt agatacatgt gctggggctt ctcttttgta 780 

gtcccagatt acagtattag cagcgatatc aacacccaaa ttattgagta tcttaatctc 

tggcactggt ttaatgttac gcttagccca aagctcaaat gcaacattaa caggaagtgt 

tgtcttattt tcaaagatct ccacatcaat accatctacc tttgtgtaaa cagcattatt 

aatgatggaa acaggtgctt cgccggcgtg tccatcaaag tgtcctttat taacaacatt 1020 

ataagccaca ttttctaaac tctgtaacct ggtaaatgta ttccacaggt tataagtatc 1080 

aaattgtttg taaatccata ggctaaatcc agcagaaatc atcatattat atgcatccaa 1140 

gtactgtcgg tactcatttg catggtgtct gcaaacagca ccacctaaat tgcatcgtgt 1200 

aatacacgta gcagatttga gtggaacata atcaatatcc gacactactt gtttgccatg 1260 

agactcacaa ggactatcag aatagtaaaa gaaaggcaat tgctttaaat tagtaaatgc 1320 

acttttatcg aaagctggag tgtggaatgc atgcttattc acatacaaac taccaccatc 1380 

acagqctggt aagttcaagt ttgacaagac tcttgtgtca aacctacaca caattgcatt 1440 

ggctgggtaa cgatcaacgt tacaattcca aaacaaacaa acaccatcag tgaatttatc 1500 

gtgatgtgta gcataagaat agaagagttc ctctattttg taagctttgt cactacatgg 1560 

ctgagcatcg tagaacttcc attctacttc agcctgaggc acacacttga tagcctttgg 1620 

atttccaatg tcatgaagaa ctggaaactt atcagcaagc aatgcagact tcacaaccat 1680 

gtgttgtact tttctgcaag cagaattaac cctcagttca tctcctataa tagggtattc 1740 

aacagaccaa tcaacgcgct taacaaagca ctcatggact gctaaacatc tagtcatgat 1800 
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agcatcacaa ctagccacat gtgcatttcc atgtacctgg caatgttggt catggttact 1860 

ctgaaggtta cccgtaaagc cccactgctg aacatcaatc ataaatgggt tatagacata 1920 

gtcaaaaccc acagaatgat tccagcaggc ataagtatct gatgaagtag aaaagcaagt 1980 

tgcacgtttg tcacacagac aacacgrtct ttcaggtcca atcttgacaa agtacttcat 2040 

tgatgtaagc tcaaagccat gcgcccaaag gacga 2075 

<210> 54 

<211> 1891 

<212> DNA 

<213> CORONAVIRUS 

< 4 0°> 54 +-+» ^ ™ 

aagattcacc acttaaatta gaggatttta tccctatgga cagcacagtg aaaaattact 60 

tcataacaga tgcgcaaaca ggttcatcaa aatgtgtgtg ttctgtgatt gatcttttac 120 

ttgatgactt tgtcgagata ataaagtcac aagatttgtc agtgatttca aaagtggtca 180 

aggttacaat tgactatgct gaaatttcat tcatgctttg gtgtaaggat ggacatgttg 240 

aaaccttcta cccaaaacta caagcaagtc aagcgtggca accaggtgtt gcgatgccta 300 

acttgtacaa gatgcaaaga atgcttcttg aaaagtgtga ccttcagaat tatggtgaaa 360 

atgctgttat accaaaagga ataatgatga atgtcgcaaa gtatactcaa ctgtgtcaat 420 

acttaaatac acttacttta gctgtaccct acaacatgag agttattcac tttggtgctg 480 

gctctgataa aggagttgca ccaggtacag ctgtgctcag acaatggttg ccaactggca 540 

cactacttgt cgattcagat cttaatgact tcgtctccga cgcagattct actttaattg 600 

gagactgtgc aacagtacat acggctaata aatgggacct tattattagc gatatgtatg 660 

accctaggac caaacatgtg acaaaagaga atgactctaa agaagggttt ttcacttatc 720 

tgtgtggatt tataaagcaa aaactagccc tgggtggttc tatagctgta aagataacag 780 

agcattcttg gaatgctgac ctttacaagc ttatgggcca tttctcatgg tggacagctt 840 

ttgttacaaa tgtaaatgca tcatcatcgg aagcattttt aattggggct aactatcttg 900 

gcaagccgaa ggaacaaatt gatggctata ccatgcatgc taactacatt ttctggagga 960 

acacaaatcc tatccagttg tcttcctatt cactctttga catgagcaaa tttcctctta 1020 

aattaagagg aactgctgta atgtctctta aggagaatca aatcaatgat atgatttatt 1080 

ctcttctgga aaaaggtagg cttatcatta gagaaaacaa cagagttgtg gtttcaagtg 1140 

atattcttgt taacaactaa acgaacatgt ttattttctt attatttctt actctcacta 1200 

gtggtagtga ccttgaccgg tgcaccactt ttgatgatgt tcaagctcct aattacactc 1260 

aacatacttc atctatgagg ggggtttact atcctgatga aatttttaga tcagacactc 1320 

tttatttaac tcaggattta tttcttccat tttattctaa tgttacaggg tttcatacta 1380 
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ttaatcatac 

cagagaaatc 

agtcggtgat 

tgtgtgacaa 

tattcgataa 

tttcagaaaa 

ggtttctcta 

gttttaacac 

gagccattct 



gtttggcaac 

aaatgttgtc 

tattattaac 

ccctttcttt 

tgcatttaat 

gtcaggtaat 

tgtttataag 

tttgaaacct 

tacagccttt 



cctgtcatac 
cgtggttggg 
aattctacta 
gctgtttcta 
tgcactttcg 
tttaaacact 
ggctatcaac 
atttttaagt 
tcacctgctc 



S226CAS108 
cttttaagga 
tttrtggttc 
atgttgttat 
aacccatggg 
agtacatatc 
tacgagagtt 
ctatagatgt 
tgcctcttgg 



ST25 

tggtatttat 

taccatgaac 

acgagcatgt 

tacacagaca 

tgatgccttt 

tgtgtrtaaa 

agttcgtgat 

tattaacatt 



tttgctgcca 

aacaagtcac 

aactttgaat 

catactatga 

tcgcttgatg 

aataaagatg 

ctaccttctg 

acaaatttta 



<210> 55 

<2U> 32 

<212> DNA 

<213> ARTIFICIAL SEQUENCE 
<220> 

<223> amorce N sens 
<400> 55 

cccatatgtc tgataatgga ccccaatcaa ac 

<210> 56 

<211> 32 

<212> DNA 

<213> artificial sequence 
<220> 

<223> amorce N antisens 

<400> 56 ^ nfm 

cccccgggtg cctgagttga atcagcagaa gc 

<210> 57 

<211> 31 

<212> DNA 

<213> artificial sequence 



1440 

1500 

1560 

1620 

1680 

1740 

1800 

1860 

1891 



32 



32 



<220> 
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<400> 57 

cccatatgag tgaccttgac cggtgcacca c 

<210> 58 

<211> 30 

<212> DNA 

<213> artificial sequence 
<220> 

<223> amorce SL sens 

<400> 58 

cccatatgaa accttgcacc ccacctgctc 

<210> 59 
<211> 33 
<212> DNA 

<213> amorce sc et SL antisens 
<400> 59 

cccccgggtt taatatattg ctcatatttt ccc 

<210> 60 

<211> 16 

<212> DNA 

<213> amorce sens serie 1 

<400> 60 
ggcatcgtat gggttg 

<210> 61 

<211> 16 

<212> DNA 

<213> amorce antisens serie 2 C28774-28759) 

<400> 61 
cagtttcacc acctcc 

<210> 62 
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<211> 16 
<212> DNA 

<213> amorce sens serie 2 (28375-28390) 

<400> 62 
ggctactacc gaagag 

<210> 63 

<211> 16 

<212> DNA 

<213> amorce antisens serie 2 (28702-28687) 



<400> 63 
aattaccgcg actacg 

<210> 64 
<211> 26 
<212> DNA 

<213> sonde 1/serie 1 (28561-28586) 
<400> 64 

ggcacccgca atcctaataa caatgc 

<210> 65 

<211> 21 

<212> DNA 

<213> sonde 2/serie 1 (28588-28608) 



16 



26 



<400> 65 

gccaccgtgc tacaacttcc t 

<210> . 66 

<211> 23 
<212> DNA 

<213> sonde 1/serie 2 /sonde N/FL (28541-28563) 



<400> 66 

atacacccaa agaccacatt ggc 
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<210> 67 
<211> 25 
<212> DNA 

<213> sonde 2/serie 2/sonde SARS/N/LC705 C28565-28589) 
<400> 67 

cccgcaatcc taataacaat gctgc 

<210> 68 

<211> 30 

<212> DNA 

<213> artificial sequence 
<220> 

<223> amorce ancre 14T 

<400> 68 

agatgaattc ggtacctttt tttttttttt 

<210> 69 
<211> 13 
<212> PRT 

<213> artificial sequence 
<220> 

<223> peptide M2-14 
<400> 69 

Ala Asp Asn Gly Thr lie Thr Val Glu Glu Leu Lys Gin 
15 10 

<210> 70 

<211> 12 

<212> PRT 

<213> artificial sequence 
<220> 

<223> peptide El-12 

<400> 70 
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Met Tyr Ser phe val Ser Glu Glu Thr Gly Thr Leu 
1 5 10 



<210> 71 

<211> 24 

<212> PRT 

<213> artificial sequence 



<220> 

<223> peptide E53-72 
<400> 71 

Lys Pro Thr Val Tyr Val Tyr Ser Arg val Lys Ash Leu Asn ser Ser 
15 10 15 

Glu Gly val Pro Asp Leu Leu Val 
20 

<210> 72 

<211> 153 

<212> DNA 

<213> CORONAVIRUS 

<400> 72 

gatattaggt ttttacctac ccaggaaaag ccaaccaacc tcgatctctt gtagatctgt 60 

tctctaaacg aactttaaaa tctgtgtagc tgtcgctcgg ctgcatgcct agtgcaccta 120 

cgcagtataa acaataataa attttactgt cgt 153 

<210> 73 

<211> 410 

<212> DNA 

<213> CORONAVIRUS 

<400> 73 

ttctccagac aacttcaaaa ttccatgagt ggagcttctg ctgattcaac tcaggcataa 60 

acactcatga tgaccacaca aggcagatgg gctatgtaaa cgttttcgca attccgttta 120 

cgatacatag tctactcttg tgcagaatga attctcgtaa ctaaacagca caagtaggtt 180 

tagttaactt taatctcaca tagcaatctt taatcaatgt gtaacattag ggaggacttg 240 

aaagagccac cacattttca tcgaggccac gcggagtacg atcgagggta cagtgaataa 300 

tgctagggag agctgcctat atggaagagc cctaatgtgt aaaattaatt ttagtagtgc 360 
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tatccccatg tgattttaat agcttcttag gagaatgaca aaaaaaaaaa 410 

<210> 74 

<211> 4382 

<212> PRT 

<213> CORONAVIRUS 

<400> 74 

Met Glu ser Leu Val Leu Gly val Asn Glu Lys Thr His val Gin Leu 
1 5 10 15 

ser Leu Pro Val Leu Gin val Arg Asp val Leu val Arg Gly Phe Gly 
20 25 30 

Asp ser val Glu Glu Ala Leu ser Glu Ala Arg Glu His Leu Lys Asn 
35 40 45 

Gly Thr cys Gly Leu val Glu Leu Glu Lys Gly Val Leu Pro Gin Leu 
50 55 60 

Glu Gin Pro Tyr Val Phe lie Lys Arg ser Asp Ala Leu ser Thr Asn 
65 70 75 80 

His Gly His Lys val Val Glu Leu val Ala Glu Met Asp Gly lie Gin 
85 90 95 

Tyr Gly Arg ser Gly lie Thr Leu Gly Val Leu val Pro His val Gly 
100 105 110 

Glu Thr Pro lie Ala Tyr Arg Asn Val Leu Leu Arg Lys Asn Gly Asn 
115 120 125 

Lys Gly Ala Gly Gly His Ser Tyr Gly lie Asp Leu Lys Ser Tyr Asp 
130 135 140 

Leu Gly Asp Glu Leu Gly Thr Asp Pro lie Glu Asp Tyr Glu Gin Asn 
145 150 155 160 

Trp Asn Thr Lys His Gly Ser Gly Ala Leu Arg Glu Leu Thr Arg Glu 
165 170 175 

Leu Asn Gly Gly Ala Val Thr Arg Tyr val Asp Asn Asn Phe Cys Gly 
180 185 190 

Pro Asp Gly Tyr Pro Leu Asp Cys lie Lys Asp Phe Leu Ala Arg Ala 
195 200 205 
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Glv Lys Ser Met Cys Thr Leu Ser Glu Gin Leu Asp Tyr lie Glu Ser 
y 210 215 220 

Lys Arg Gly val Tyr cys cys Arg Asp His Glu His Glu lie Ala Trp 
225 230 235 <£4U 

Phe Thr Glu Arg Ser Asp Lys ser Tyr Glu His Gin Thr Pro Phe Glu 
245 250 255 

lie Lys ser Ala Lys Lys Phe Asp Thr Phe Lys Gly Glu Cys Pro Lys 
260 265 270 

Phe val Phe Pro Leu Asn ser Lys Val Lys val lie Gin pro Arg Val 
275 280 285 

Glu Lys Lys Lys Thr Glu Gly Phe Met Gly Arg lie Arg ser val Tyr 
290 295 300 

Pro Val Ala Ser Pro Gin Glu cys Asn Asn Met His Leu Ser Thr Leu 
305 310 315 320 

Met Lys cys Asn His Cys Asp Glu val Ser Trp Gin Thr Cys Asp Phe 
325 330 335 

Leu Lys Ala Thr cys Glu His cys Gly Thr Glu Asn Leu Val He Glu 
340 345 350 

Gly Pro Thr Thr cys Gly Tyr Leu Pro Thr Asn Ala val val Lys Met 
355 360 365 

Pro Cys Pro Ala Cys Gin Asp Pro Glu lie Gly Pro Glu His Ser val 
370 375 380 

Ala Asp Tyr His Asn His ser Asn lie Glu Thr Arg Leu Arg Lys Gly 
385 390 395 400 

Gly Arg Thr Arg Cys Phe Gly Gly cys Val Phe Ala Tyr val Gly Cys 
405 410 415 

Tyr Asn Lys Arg Ala Tyr Trp val pro Arg Ala Ser Ala Asp lie Gly 
* 420 425 430 

Ser Gly His Thr Gly He Thr Gly Asp Asn val Glu Thr Leu Asn Glu 
435 440 445 

Asp Leu Leu Glu lie Leu Ser Arg Glu Arg val Asn lie Asn lie val 
450 455 460 

Gly Asp Phe His Leu Asn Glu Glu val Ala lie lie Leu Ala Ser Phe 
465 470 475 480 
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ser Ala ser Thr Ser Ala Phe He Asp Thr He Lys Ser Leu Asp Tyr 

Lys ser Phe Lys Thr He val Glu ser Cys Gly Asn Tyr Lys val Thr 
500 505 

Lys Gly Lys pro val Lys Gly Ala Trp Asn He Gly Gin Gin Arg Ser 
515 520 3/5 

val Leu Thr Pro Leu cys GV/ Phe Pro ser Gin Ala Ala Gly val lie 

Arg Ser He Phe Ala Arg Thr Leu Asp Ala Ala Asn His Ser He Pro 
545 550 555 :>ou 

Asp Leu Gin Arg Ala Ala val Thr lie Leu Asp Gly He Ser Glu Gin 
565 570 

ser Leu Arg Leu val Asp Ala Met Val Tyr Thr ser Asp Leu Leu Thr 
580 585 590 

Asn ser Val He He Met Ala Tyr val Thr Gly Gly Leu val Gin Gin 
595 600 bU -> 

Thr ser Gin Trp Leu ser Asn Leu Leu Gly Thr Thr val Glu Lys Leu 
610 615 620 

Arg Pro lie Phe Glu Trp He Glu Ala Lys Leu ser Ala Gly val Glu 
625 630 635 

Phe Leu Lys Asp Ala Trp Glu He Leu Lys Phe Leu lie Thr Gly val 
645 650 

Phe Asp He val Lys Gly Gin lie Gin val Ala Ser Asp Asn lie Lys 
660 665 670 

Asp cys val Lys cys Phe He Asp Val val Asn Lys Ala Leu Glu Met 
675 680 oo-> 

cys He Asp Gin val Thr lie Ala Gly Ala Lys Leu Arg Ser Leu Asn 
690 695 '00 

Leu Gly Glu val Phe lie Ala Gin Ser Lys Gly Leu Tyr Arg Gin Cys 
705 710 715 l£U 

He Arg Gly Lys Glu Gin Leu Gin Leu Leu Met Pro Leu Lys Ala Pro 

Lys Glu val Thr Phe Leu Glu Gly Asp ser His Asp Thr Val Leu Thr 
740 745 7-> u 
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Ser Glu Glu val Val Leu Lys Asn Gly Glu Leu Glu Ala Leu Glu Thr 
755 760 765 

pro Val Asp Ser Phe Thr Asn Gly Ala lie Val Gly Thr Pro Val cys 
770 775 780 

Val Asn Gly Leu Met Leu Leu Glu lie Lys Asp Lys Glu Gin Tyr cys 
785 790 795 800 

Ala Leu Ser Pro Gly Leu Leu Ala Thr Asn Asn Val Phe Arg Leu Lys 
805 810 815 

Gly Gly Ala pro lie Lys Gly val Thr Phe Gly Glu Asp Thr Val Trp 
820 825 830 

Glu Val Gin Gly Tyr Lys Asn val Arg lie Thr Phe Glu Leu Asp Glu 
835 840 845 

Arg Val Asp Lys Val Leu Asn Glu Lys cys ser Val Tyr Thr val Glu 
850 855 860 

Ser Gly Thr Glu Val Thr Glu Phe Ala cys val val Ala Glu Ala Val 
865 870 875 880 

val Lys Thr Leu Gin Pro val ser Asp Leu Leu Thr Asn Met Gly lie 
885 890 895 

Asp Leu Asp Glu Trp Ser Val Ala Thr Phe Tyr Leu Phe Asp Asp Ala 
900 905 910 

Gly Glu Glu Asn Phe Ser Ser Arg Met Tyr Cys Ser Phe Tyr Pro Pro 
915 920 925 

Asp Glu Glu Glu Glu Asp Asp Ala Glu Cys Glu Glu Glu Glu lie Asp 
930 935 940 

Glu Thr cys Glu His Glu Tyr Gly Thr Glu Asp Asp Tyr Gin Gly Leu 
945 950 955 960 

pro Leu Glu Phe Gly Ala Ser Ala Glu Thr val Arg val Glu Glu Glu 
965 970 975 

Glu Glu Glu Asp Trp Leu Asp Asp Thr Thr Glu Gin Ser Glu lie Glu 
980 985 990 

Pro Glu Pro Glu Pro Thr Pro Glu Glu Pro val Asn Gin Phe Thr Gly 
995 1000 1005 

Tyr Leu Lys Leu Thr Asp Asn Val Ala lie Lys Cys val Asp lie 
1010 1015 1020 
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Val Lys Glu Ala Gin ser Ala Asn_Rrxu^et_j/al_ lie val Asn Ala 
1025 1030 ~ T03V 

Ala Asn lie His Leu Lys His Gly Gly Gly Val Ala Gly Ala Leu 
1040 1045 1050 

Asn Lys Ala Thr Asn Gly Ala Met Gin Lys Glu Ser Asp Asp Tyr 
1055 1060 1065 

lie Lys Leu Asn Gly Pro Leu Thr val Gly Gly ser Cys Leu Leu 
1070 1075 1080 

Ser Gly His Asn Leu Ala Lys Lys cys Leu His val val Gly Pro 
1085 1090 1095 

Asn Leu Asn Ala Gly Glu Asp lie Gin Leu Leu Lys Ala Ala Tyr 
1100 1105 1110 

Glu Asn Phe Asn ser Gin Asp lie Leu Leu Ala Pro Leu Leu Ser 
1115 1120 1125 

Ala Gly lie Phe Gly Ala Lys Pro Leu Gin Ser Leu Gin val cys 
1130 1135 1140 

Val Gin Thr val Arg Thr Gin Val Tyr lie Ala val Asn Asp Lys 
1145 1150 1155 

Ala Leu Tyr Glu Gin Val Val Met Asp Tyr Leu Asp Asn Leu Lys 
1160 1165 1170 

Pro Arg val Glu Ala Pro Lys Gin Glu Glu Pro Pro Asn Thr Glu 
1175 1180 1185 

Asp Ser Lys Thr Glu Glu Lys ser Val val Gin Lys Pro val Asp 
1190 1195 1200 

Val Lys Pro Lys lie Lys Ala cys lie Asp Glu Val Thr Thr Thr 
1205 1210 1215 

Leu Glu Glu Thr Lys Phe Leu Thr Asn Lys Leu Leu Leu Phe Ala 
1220 1225 1230 

Asp lie Asn Gly Lys Leu Tyr His Asp Ser Gin Asn Met Leu Arg 
1235 1240 1245 

Gly Glu Asp Met Ser Phe Leu Glu Lys Asp Ala Pro Tyr Met val 
1250 1255 1260 

Gly Asp Val lie Thr Ser Gly Asp lie Thr Cys val Val lie Pro 
1265 1270 1275 
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ser Lys Lys Ala Gly Gly Thr Thr Glu Met Leu Ser Arg Ala Leu 
1280 1285 x 

L ys Ly^ val Pro val Asp g1u q Tyr He Thr Thr Tyr^ Pro Gly Gin 

Gly cys Ala Gly Tyr Thr Leu Glu Glu Ala Lys Thr Ala Leu Lys 
1310 1315 

Lys cys Lys Ser Ala Phe Tyr val Leu Pro ser Glu Ala Pro Asn 
1325 1330 Xi5 ^> 

Ala Lys Glu Glu He Leu Gly Thr val Ser Trp Asn Leu Arg Glu 
1340 1345 ±5>u 

Met Leu Ala His Ala Glu Glu Thr Arg Lys Leu Met Pro He Cys 
1355 1360 lib* 

Met Asp Val Arg Ala lie Met Ala Thr He Gin Arg Lys Tyr Lys 
1370 1375 xsav 

Gly He Lys He Gin Glu Gly He Val Asp Tyr Gly Val Arg Phe 
1385 1390 1395 

Phe Phe Tyr Thr ser Lys Glu Pro Val Ala ser lie He Thr Lys 
1400 1405 

Leu Asn ser Leu Asn Glu Pro Leu val Thr Met Pro He Gly Tyr 
1415 1420 1425 

val Thr His Gly Phe Asn Leu Glu Glu Ala Ala Arg cys Met Arg 
1430 1435 1440 

ser Leu Lys Ala pro Ala Val val Ser Val Ser ser Pro Asp Ala 
1445 * 1450 1455 

val Thr Thr Tyr Asn Gly Tyr Leu Thr Ser ser ser Lys Thr ser 
1460 1465 1470 

Glu Glu His Phe val Glu Thr Val ser Leu Ala Gly Ser Tyr Arg 
1475 1480 1485 

Asp Trp ser Tyr Ser Gly Gin Arg Thr Glu Leu Gly val Glu Phe 
1490 1495 150U 

Leu Lys Arg Gly Asp Lys lie val Tyr His Thr Leu Glu Ser Pro 
1505 1510 

val Glu Phe His Leu Asp Gly Glu val Leu Ser Leu Asp Lys Leu 
1520 1525 1530 
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Lys Ser Leu Leu Ser Leu Arg Glu Val Lys Thr lie Lys val Phe 
1535 1540 1545 

Thr Thr Val Asp Asn Thr Asn Leu His Thr Gin Leu Val Asp Met 
1550 1555 1560 

Ser Met Thr Tyr Gly Gin Gin Phe Gly Pro Thr Tyr Leu Asp Gly 
1565 1570 1575 

Ala Asp Val Thr Lys lie Lys Pro His Val Asn His Glu Gly Lys 
1580 1585 1590 

Thr Phe Phe val Leu Pro Ser Asp Asp Thr Leu Arg Ser Glu Ala 
1595 1600 1605 

Phe Glu Tyr Tyr His Thr Leu Asp Glu Ser Phe Leu Gly Arg Tyr 
1610 1615 1620 

Met ser Ala Leu Asn His Thr Lys Lys Trp Lys Phe pro Gin val 
1625 1630 1635 

Gly Gly Leu Thr ser lie Lys Trp Ala Asp Asn Asn cys Tyr Leu 
1640 1645 1650 

Ser ser val Leu Leu Ala Leu Gin Gin Leu Glu val Lys Phe Asn 
1655 1660 1665 

Ala Pro Ala Leu Gin Glu Ala Tyr Tyr Arg Ala Arg Ala Gly Asp 
1670 1675 * 1680 

Ala Ala Asn Phe Cys Ala Leu lie Leu Ala Tyr ser Asn Lys Thr 
1685 1690 1695 

Val Gly Glu Leu Gly Asp val Arg Glu Thr Met Thr His Leu Leu 
1700 1705 1710 

Gin His Ala Asn Leu Glu Ser Ala Lys Arg Val Leu Asn Val Val 
1715 1720 " 1725 

cys Lys His cys Gly Gin Lys Thr Thr Thr Leu Thr Gly val Glu 
1730 1735 1740 

Ala val Met Tyr Met Gly Thr Leu ser Tyr Asp Asn Leu Lys Thr 
1745 1750 1755 

Gly Val Ser lie Pro Cys Val cys Gly Arg Asp Ala Thr Gin Tyr 
1760 1765 ~ 1770 

Leu Val Gin Gin Glu Ser Ser Phe val Met Met Ser Ala Pro Pro 
1775 1780 1785 
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Ala Glu Tyr Lys Leu Gin Gin Gly Thr Phe Leu cys Ala Asn Glu 
1790 1795 ■ L0UU 

Tyr Thr Gly Asn Tyr Gin cys Gly His Tyr Thr His He Thr Ala 
1805 1810 1815 

Lys Glu Thr Leu Tyr Arg He Asp Gly Ala His Leu Thr Lys Met 
1820 1825 18:J U 

ser Glu Tyr Lys Gly Pro val Thr Asp val Phe Tyr Lys Glu Thr 
1835 1840 1845 

ser Tyr Thr Thr Thr He Lys Pro Val ser Tyr Lys Leu Asp Gly 
1850 1855 I860 

val Thr Tyr Thr Glu lie Glu Pro Lys Leu Asp Gly Tyr Tyr Lys 
1865 1870 1875 

Lys Asp Asn Ala Tyr Tyr Thr Glu Gin Pro He Asp Leu Val Pro 
1880 1885 1890 

Thr Gin Pro Leu Pro Asn Ala Ser Phe Asp Asn Phe Lys Leu Thr 
1895 1900 1905 

cys ser Asn Thr Lys Phe Ala Asp Asp Leu Asn Gin Met Thr Gly 
1910 1915 1920 

Phe Thr Lys Pro Ala ser Arg Glu Leu Ser Val Thr Phe Phe Pro 
1925 1930 1935 

Asp Leu Asn Gly Asp val val Ala He Asp Tyr Arg His Tyr Ser 
1940 1945 19 J 0 

Ala ser Phe Lys Lys Gly Ala Lys Leu Leu His Lys Pro He Val 
1955 I960 1965 

Trp His He Asn Gin Ala Thr Thr Lys Thr Thr Phe Lys Pro Asn 
1970 1975 1980 

Thr Trp Cys Leu Arg cys Leu Trp ser Thr Lys Pro Val Asp Thr 
1985 1990 iyy:> 

ser Asn Ser Phe Glu Val Leu Ala Val Glu Asp Thr Gin Gly Met 
2000 2005 2010 

Asp Asn Leu Ala cys Glu Ser Gin Gin Pro Thr ser Glu Glu val 
2015 2020 2025 

val Glu Asn Pro Thr lie Gin Lys Glu Val lie Glu Cys Asp Val 
2030 2035 2040 
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Lys Thr Thr Glu val val Gly Asn val He Leu Lys Pro Ser Asp 
2045 2050 2055 

Glu Gly Val Lys Val Thr Gin Glu Leu Gly His Glu Asp Leu Met 
2060 2065 2070 

Ala Ala Tyr val Glu Asn Thr Ser lie Thr lie Lys Lys Pro Asn 
2075 2080 2085 

Glu Leu Ser Leu Ala Leu Gly Leu Lys Thr He Ala Thr His Gly 
2090 2095 2100 

lie Ala Ala lie Asn Ser val Pro Trp ser Lys He Leu Ala Tyr 
2105 2110 2115 

Val Lys Pro Phe Leu Gly Gin Ala Ala lie Thr Thr Ser Asn cys 
2120 2125 2130 

Ala Lys Arg Leu Ala Gin Arg val Phe Asn Asn Tyr Met Pro Tyr 
2135 2140 2145 

Val Phe Thr Leu Leu Phe Gin Leu Cys Thr Phe Thr Lys Ser Thr 
2150 2155 2160 

Asn Ser Arg He Arg Ala Ser Leu Pro Thr Thr He Ala Lys Asn 
2165 2170 2175 

Ser val Lys Ser val Ala Lys Leu cys Leu Asp Ala Gly lie Asn 
2180 2185 2190 

Tyr val Lys ser Pro Lys Phe ser Lys Leu Phe Thr lie Ala Met 
2195 2200 2205 

Trp Leu Leu Leu Leu ser lie cys Leu Gly ser Leu lie cys val 
2210 2215 2220 

Thr Ala Ala Phe Gly val Leu Leu ser Asn Phe Gly Ala Pro ser 
2225 2230 2235 

Tyr Cys Asn Gly val Arg Glu Leu Tyr Leu Asn ser Ser Asn Val 
2240 2245 2250 

Thr Thr Met Asp phe cys Glu Gly Ser Phe Pro Cys ser lie Cys 
2255 2260 2265 

Leu $er Gl y Leu AS P Ser Leu AS P Ser T yr Pro Ala Leu Glu Thr 
2270 2275 2280 

Ile val Thr lie Ser ser Tyr Lys Leu Asp Leu Thr lie Leu 

2285 2290 2295 
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Gly Leu Ala Ala Glu Trp val Leu Ala Tyr Met Leu Phe Thr Lys 
y 2300 2305 2310 

Phe Phe Tyr Leu Leu Gly Leu ser Ala lie Met Gin val Phe Phe 
2315 2320 

Gly Tyr Phe Ala Ser His Phe He Ser Asn ser Trp Leu Met Trp 
2330 2335 

Phe He He ser He val Gin Met Ala Pro val Ser Ala Met Val 
2345 2350 tioo 

Arg Met Tyr lie Phe Phe Ala Ser Phe Tyr Tyr lie Trp Lys Ser 
2360 2365 

Tyr val His He Met Asp Gly cys Thr Ser ser Thr Cys Met Met 
y 2375 2380 2d8b 

cys Tyr Lys Arg Asn Arg Ala Thr Arg val Glu cys Thr Thr lie 
2390 2395 

val Asn Gly Met Lys Arg Ser Phe Tyr Val Tyr Ala Asn Gly Gly 
2405 2410 

i 

Arg Gly Phe cys Lys Thr His Asn Trp Asn Cys Leu Asn Cys Asp 
2420 2425 z*f:$u 

Thr Phe cys Thr Gly ser Thr Phe lie ser Asp Glu val Ala Arg 
2435 2440 

Asp Leu Ser Leu Gin Phe Lys Arg Pro lie Asn Pro Thr Asp Gin 
2450 2455 '^ ou 

Ser Ser Tyr He val Asp ser val Ala Val Lys Asn Gly Ala Leu 
2465 2470 Z4/:> 

His Leu Tyr Phe Asp Lys Ala Gly Gin Lys Thr Tyr Glu Arg His 
2480 2485 ^ 4yu 

Pro Leu ser His Phe val Asn Leu Asp Asn Leu Arg Ala Asn Asn 
2495 2500 zsud 

Thr Lys Gly Ser Leu Pro lie Asn val lie val Phe Asp Gly Lys 
2510 2515 totu 

Ser Lys cys Asp Glu Ser Ala ser Lys Ser Ala ser val Tyr Tyr 
2525 2530 £533 

ser Gin Leu Met cys Gin Pro lie Leu Leu Leu Asp Gin Ala Leu 
2540 2545 zrou 
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val ser Asp val Gly Asp Ser Thr Glu Val Ser Val Lys Met Phe 
2555 2560 2565 

Asp Ala Tyr val Asp Thr Phe Ser Ala Thr Phe Ser Val Pro Met 
2570 2575 2580 

Glu Lys Leu Lys Ala Leu val Ala Thr Ala His ser Glu Leu Ala 
2585 2590 2595 

Lys Gly val Ala Leu Asp Gly val Leu Ser Thr Phe val ser Ala 
2600 2605 2610 

Ala Arg Gin Gly Val val Asp Thr Asp Val Asp Thr Lys Asp Val 
2615 2620 2625 

lie Glu Cys Leu Lys Leu ser His His Ser Asp Leu Glu val Thr 
2630 2635 2640 

Gly Asp Ser cys Asn Asn Phe Met Leu Thr Tyr Asn Lys val Glu 
2645 2650 2655 

Asn Met Thr Pro Arg Asp Leu Gly Ala Cys lie Asp Cys Asn Ala 
2660 2665 2670 

Arg His lie Asn Ala Gin Val Ala Lys Ser His Asn Val Ser Leu 
2675 2680 2685 

lie Trp Asn Val Lys Asp Tyr Met ser Leu Ser Glu Gin Leu Arg 
2690 2695 2700 

Lys Gin lie Arg ser Ala Ala Lys Lys Asn Asn lie Pro Phe Arg 
2705 " 2710 2715 

Leu Thr Cys Ala Thr Thr Arg Gin val val Asn val lie Thr Thr 
2720 2725 2730 

Lys lie ser Leu Lys Gly Gly Lys lie val Ser Thr Cys Phe Lys 
2735 2740 2745 

Leu Met Leu Lys Ala Thr Leu Leu Cys Val Leu Ala Ala Leu val 
2750 2755 2760 

Cys Tyr lie val Met Pro Val His Thr Leu Ser lie His Asp Gly 
2765 2770 2775 

Tyr Thr Asn Glu lie lie Gly Tyr Lys Ala lie Gin Asp Gly Val 
2780 2785 2790 

Thr Arg Asp lie lie Ser Thr Asp Asp Cys Phe Ala Asn Lys His 
2795 2800 2805 
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Ala Gly Phe Asp Ala Trp Phe ser Gin Arg Gly Gly Ser Tyr Lys 
2810 2815 

Asn asp s Lys Ser Cys Pro Val^ val Ala Ala He il^ Thr Arg Glu 

lie Phe He Val Pro Gly^ Leu Pro Gly Thr val^ Leu Arg Ala 

He Asn Gly Asp Phe Leu His Phe Leu Pro Arg Val Phe ser Ala 
2855 2860 

val Gly Asn He cys Tyr Thr Pro Ser Lys Leu lie Glu Tyr ser 
2870 2875 

Asp Phe Ala Thr ser Ala cys Val Leu Ala Ala Glu Cys Thr He 
2885 2890 

Phe Lys Asp Ala Met Gly Lys Pro val Pro Tyr cys Tyr Asp Thr 
2900 2905 

Asn Leu Leu Glu Gly Ser lie ser Tyr ser Glu Leu Arg Pro Asp 
2915 2920 

Thr Arg Tyr Val Leu Met Asp Gly ser He He Gin Phe Pro Asn 
2930 2935 

Thr Tyr Leu Glu Gly Ser Val Arg val val Thr Thr Phe Asp Ala 
2945 2950 

Glu Tyr Cys Arg His Gly Thr Cys Glu Arg Ser Glu Val Gly He 
2960 2965 

Cys Leu ser Thr ser Gly Arg Trp val Leu Asn Asn Glu His Tyr 
2975 2980 

Arg Ala Leu ser Gly Val Phe cys Gly val Asp Ala Met Asn Leu 
2990 2995 

He Ala Asn He Phe Thr Pro Leu Val Gin Pro Val Gly Ala Leu 
3005 3010 

Asp val ser Ala Ser val val Ala Gly Gly He lie Ala He Leu 
3020 3025 3U3U 

val Thr cys Ala Ala Tyr Tyr Phe Met Lys Phe Ajg Arg Val Phe 
3035 3040 

Gly Glu Tyr Asn His val val Ala Ala Asn Ala Leu Leu Phe Leu 
3050 3055 
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Met Ser Phe Thr lie Leu cys Leu Val Pro Ala Tyr Ser Phe Leu 
3065 3070 3075 

Pro Gly Val Tyr Ser val Phe Tyr Leu Tyr Leu Thr Phe Tyr Phe 
3080 3085 3090 

Thr Asn Asp val Ser Phe Leu Ala His Leu Gin Trp phe Ala Met 
3095 3100 3105 

Phe ser Pro lie val Pro Phe Trp lie Thr Ala lie Tyr Val Phe 
3110 3115 3120 

cys lie Ser Leu Lys His Cys His Trp Phe Phe Asn Asn Tyr Leu 
3125 3130 3135 

Arg Lys Arg Val Met Phe Asn Gly val Thr Phe Ser Thr Phe Glu 
3140 3145 3150 

Glu Ala Ala Leu Cys Thr Phe Leu Leu Asn Lys Glu Met Tyr Leu 
3155 3160 3165 

Lys Leu Arg ser Glu Thr Leu Leu Pro Leu Thr Gin Tyr Asn Arg 
3170 3175 3180 

Tyr Leu Ala Leu Tyr Asn Lys Tyr Lys Tyr Phe Ser Gly Ala Leu 
3185 3190 3195 

Asp Thr Thr Ser Tyr Arg Glu Ala Ala cys Cys His Leu Ala Lys 
3200 3205 3210 

Ala Leu Asn Asp Phe Ser Asn ser Gly Ala Asp Val Leu Tyr Gin 
3215 3220 3225 

Pro Pro Gin Thr Ser lie Thr Ser Ala Val Leu Gin Ser Gly Phe 
3230 3235 3240 

Arg Lys Met Ala Phe Pro Ser Gly Lys val Glu Gly Cys Met val 
3245 3250 3255 

Gin Val Thr Cys Gly Thr Thr Thr Leu Asn Gly Leu Trp Leu Asp 
3260 3265 3270 

Asp Thr val Tyr cys pro Arg His Val He Cys Thr Ala Glu Asp 
3275 3280 3285 

Met Leu Asn Pro Asn Tyr Glu Asp Leu Leu lie Arg Lys ser Asn 
3290 3295 3300 

His Ser Phe Leu Val Gin Ala Gly Asn val Gin Leu Arg val He 
3305 3310 3315 
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Gly His ser Met Gin Asn cys Leu Leu Arg Leu Lys val Asp Thr 
y 3320 3325 3330 

ser Asn Pro Lys Thr Pro Lys Tyr Lys Phe Val Arg He Gin Pro 
3335 3340 3345 

Gly Gin Thr Phe Ser Val Leu Ala cys Tyr Asn Gly ser Pro Ser 
3350 3355 3360 

Gly val Tyr Gin Cys Ala Met Arg Pro Asn His Thr lie Lys Gly 
3365 3370 3375 

ser Phe Leu Asn Gly Ser cys Gly Ser val Gly Phe Asn He Asp 
3380 3385 3390 

Tyr asp Cys val Ser Phe Cys Tyr Met His His Met Glu Leu Pro 
3395 3400 3405 

Thr Gly Val His Ala Gly Thr Asp Leu Glu Gly Lys Phe Tyr Gly 
3410 3415 3420 

Pro Phe Val Asp Arg Gin Thr Ala Gin Ala Ala Gly Thr Asp Thr 
3425 3430 3435 

Thr lie Thr Leu Asn Val Leu Ala Trp Leu Tyr Ala Ala val lie 
3440 3445 3450 

Asn Gly Asp Arg Trp Phe Leu Asn Arg Phe Thr Thr Thr Leu Asn 
3455 3460 3465 

Asp Phe Asn Leu val Ala Met Lys Tyr Asn Tyr Glu Pro Leu Thr 
3470 3475 3480 

Gin Asp His val Asp lie Leu Gly Pro Leu Ser Ala Gin Thr Gly 
3485 3490 3495 

lie Ala Val Leu Asp Met Cys Ala Ala Leu Lys Glu Leu Leu Gin 
3500 3505 3510 

Asn Gly Met Asn Gly Arg Thr lie Leu Gly Ser Thr lie Leu Glu 
3515 3520 3525 

Asp Glu Phe Thr Pro Phe Asp val val Arg Gin cys ser Gly val 
3530 3535 3540 

Thr Phe Gin Gly Lys Phe Lys Lys lie val Lys Gly Thr His His 
3545 3550 3555 

Trp Met Leu Leu Thr Phe Leu Thr Ser Leu Leu lie Leu val Gin 
3560 3565 3570 
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Ser Thr Gin Trp ser Leu Phe Phe Phe val Tyr Glu Asn Ala Phe 
3575 3580 3585 

Leu Pro Phe Thr Leu Gly lie Met Ala lie Ala Ala cys Ala Met 
3590 3595 3600 

Leu Leu Val Lys His Lys His Ala Phe Leu cys Leu Phe Leu Leu 
3605 3610 3615 

Pro ser Leu Ala Thr val Ala Tyr Phe Asn Met val Tyr Met Pro 
3620 3625 3630 

Ala Ser Trp Val Met Arg lie Met Thr Trp Leu Glu Leu Ala Asp 
3635 3640 3645 

Thr Ser Leu Ser Gly Tyr Arg Leu Lys Asp cys val Met Tyr Ala 
3650 3655 3660 

Ser Ala Leu Val Leu Leu lie Leu Met Thr Ala Arg Thr val Tyr 
3665 3670 3675 

Asp Asp Ala Ala Arg Arg val Trp Thr Leu Met Asn val lie Thr 
3680 3685 3690 

Leu Val Tyr Lys val Tyr Tyr Gly Asn Ala Leu Asp Gin Ala lie 
3695 3700 3705 

Ser Met Trp Ala Leu val lie ser val Thr Ser Asn Tyr ser Gly 
3710 3715 3720 

val val Thr Thr lie Met Phe Leu Ala Arg Ala lie Val Phe val 
3725 3730 3735 

cys val Glu Tyr Tyr Pro Leu Leu Phe lie Thr Gly Asn Thr Leu 
3740 3745 3750 

Gin cys lie Met Leu val Tyr Cys Phe Leu Gly Tyr Cys Cys Cys 
3755 3760 3765 

cys Tyr Phe Gly Leu Phe cys Leu Leu Asn Arg Tyr Phe Arg Leu 
3770 3775 3780 

Thr Leu Gly val Tyr Asp Tyr Leu val ser Thr Gin Glu Phe Arg 
3785 3790 3795 

Tyr Met Asn ser Gin Gly Leu Leu pro Pro Lys Ser Ser lie Asp 
3800 3805 3810 

Ala Phe Lys Leu Asn lie Lys Leu Leu Gly lie Gly Gly Lys Pro 
3815 3820 3825 
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cys lie Lys Val Ala Thr val Gin Ser Lys Met ser Asp Val Lys 
3830 3835 3840 

Cys Thr Ser Val Val Leu Leu ser val Leu Gin Gin Leu Arg val 
3845 3850 3855 

Glu ser ser Ser Lys Leu Trp Ala Gin cys Val Gin Leu His Asn 
3860 3865 3870 

Asp lie Leu Leu Ala Lys Asp Thr Thr Glu Ala Phe Glu Lys Met 
3875 3880 3885 

val ser Leu Leu Ser val Leu Leu ser Met Gin Gly Ala Val Asp 
3890 3895 3900 

lie Asn Arg Leu Cys Glu Glu Met Leu Asp Asn Arg Ala Thr Leu 
3905 3910 3915 

Gin Ala He Ala Ser Glu Phe ser Ser Leu Pro ser Tyr Ala Ala 
3920 3925 3930 

Tyr Ala Thr Ala Gin Glu Ala Tyr Glu Gin Ala val Ala Asn Gly 
y 3935 3940 3945 

Asp Ser Glu val Val Leu Lys Lys Leu Lys Lys ser Leu Asn Val 
K 3950 3955 3960 

Ala Lys Ser Glu Phe Asp Arg Asp Ala Ala Met Gin Arg Lys Leu 
3965 3970 3975 

Glu Lys Met Ala Asp Gin Ala Met Thr Gin Met Tyr Lys Gin Ala 
3980 3985 3990 

Arg ser Glu Asp Lys Arg Ala Lys Val Thr ser Ala Met Gin Thr 
3995 4000 4005 

Met Leu Phe Thr Met Leu Arg Lys Leu Asp Asn Asp Ala Leu Asn 
4010 4015 4020 

Asn lie He Asn Asn Ala Arg Asp Gly cys Val Pro Leu Asn lie 
4025 4030 4035 

lie Pro Leu Thr Thr Ala Ala Lys Leu Met Val Val val Pro Asp 
4040 4045 4050 

Tyr Gly Thr Tyr Lys Asn Thr cys Asp Gly Asn Thr Phe Thr Tyr 
y 4055 4060 4065 

Ala Ser Ala Leu Trp Glu lie Gin Gin val Val Asp Ala Asp Ser 
4070 4075 4080 
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Lys lie Val Gin Leu Ser Glu He Asn Met Asp Asn Ser Pro Asn 
4085 4090 4095 

Leu Ala Trp Pro Leu lie val Thr Ala Leu Arg Ala Asn Ser Ala 
4100 4105 4110 

val Lys Leu Gin Asn Asn Glu Leu Ser Pro Val Ala Leu Arg Gin 
4115 4120 4125 

Met Ser Cys Ala Ala Gly Thr Thr Gin Thr Ala cys Thr Asp Asp 
4130 4135 4140 

Asn Ala Leu Ala Tyr Tyr Asn Asn Ser Lys Gly Gly Arg Phe val 
4145 4150 4155 

Leu Ala Leu Leu Ser Asp His Gin Asp Leu Lys Trp Ala Arg Phe 
4160 4165 4170 

Pro Lys Ser Asp Gly Thr Gly Thr lie Tyr Thr Glu Leu Glu Pro 
4175 4180 4185 

pro Cys Arg Phe val Thr Asp Thr Pro Lys Gly Pro Lys Val Lys 
4190 " 4195 4200 

Tyr Leu Tyr Phe lie Lys Gly Leu Asn Asn Leu Asn Arg Gly Met 
4205 4210 4215 

val Leu Gly ser Leu Ala Ala Thr Val Arg Leu Gin Ala Gly Asn 
4220 4225 4230 

Ala Thr Glu val Pro Ala Asn ser Thr val Leu Ser Phe Cys Ala 
4235 4240 4245 

Phe Ala Val Asp Pro Ala Lys Ala Tyr Lys Asp Tyr Leu Ala Ser 
4250 4255 4260 

Gly Gly Gin Pro lie Thr Asn Cys Val Lys Met Leu Cys Thr His 
4265 4270 4275 

Thr Gly Thr Gly Gin Ala lie Thr Val Thr Pro Glu Ala Asn Met 
4280 4285 4290 

Asp Gin Glu Ser Phe Gly Gly Ala Ser Cys Cys Leu Tyr Cys Arg 
4295 4300 4305 

■Cys His lie Asp His Pro Asn Pro Lys Gly Phe Cys Asp Leu Lys 
4310 4315 4320 

Gly Lys Tyr Val Gin lie Pro Thr Thr cys Ala Asn Asp Pro Val 
4325 4330 4335 
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Gly Phe Thr Leu Arg Asn Thr Val cys Thr Val Cys Gly Met Trp 
4340 4345 

Lys Gly Tyr Gly Cys Ser cys Asp Gin Leu Arg Glu Pro Leu Met 
4355 4360 hsod 

Gin ser Ala Asp Ala ser Thr Phe Leu Asn Gly Phe Ala val 
4370 4375 tsev 

<210> 75 

<211> 2695 

<212> PRT 

<213> CORONAVIRUS 



<400> 75 

Arg Val cys Gly val ser Ala Ala Arg Leu Thr Pro Cys Gly Thr Gly 



1 5 



Thr Ser Thr Asp val val Tyr Arg Ala Phe Asp He Tyr Asn Glu Lys 
20 25 ^>u 

val Ala Gly Phe Ala Lys Phe Leu Lys Thr Asn cys cys Arg Phe Gin 
35 40 45 

Glu Lys Asp Glu Glu Gly Asn Leu Leu Asp Ser Tyr Phe Val Val Lys 
50 55 w 

Arg His Thr Met Ser Asn Tyr Gin His Glu Glu Thr lie Tyr Asn Leu 
65 70 75 ou 

val Lys Asp cys Pro Ala Val Ala Val His Asp Phe Phe Lys Phe Arg 



85 



val Asp Gly Asp Met Val Pro His lie Ser Arg Gin Arg Leu Thr Lys 
100 105 1J -U 

Tyr Thr Met Ala Asp Leu Val Tyr Ala Leu Arg His Phe Asp Glu Gly 
115 120 

Asn gs Asp Thr Leu Lys Glu lie Leu val Thr Tyr Asn cys Cys Asp 

Asp Asp Tyr Phe Asn Lys Lys Asp Trp Tyr Asp Phe val Glu Asn pro 
145 150 i" 

Asp He Leu Arg Val Tyr Ala Asn Leu Gly Glu Arg val Arg Gin Ser 
165 170 ±/:> 
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Leu Leu Lys Thr Val Gin Phe Cys Asp Ala Met Arg Asp Ala Gly lie 
180 185 190 

val Gly Val Leu Thr Leu Asp Asn Gin Asp Leu Asn Gly Asn Trp Tyr 
195 200 205 

Asp Phe Gly Asp Phe val Gin Val Ala Pro Gly cys Gly val Pro lie 
210 215 220 

val Asp ser Tyr Tyr ser Leu Leu Met Pro lie Leu Thr Leu Thr Arg 
225 230 235 240 

Ala Leu Ala Ala Glu Ser His Met Asp Ala Asp Leu Ala Lys Pro Leu 
245 250 255 

lie Lys Trp Asp Leu Leu Lys Tyr Asp Phe Thr Glu Glu Arg Leu Cys 
260 265 270 

Leu Phe Asp Arg Tyr Phe Lys Tyr Trp Asp Gin Thr Tyr His Pro Asn 
275 280 285 

Cys lie Asn Cys Leu Asp Asp Arg cys lie Leu His cys Ala Asn Phe 
290 295 300 

Asn val Leu Phe Ser Thr val Phe Pro Pro Thr Ser Phe Gly Pro Leu 
305 310 315 320 

val Arg Lys lie Phe Val Asp Gly val Pro Phe Val val Ser Thr Gly 
325 330 335 

Tyr His Phe Arg Glu Leu Gly Val val His Asn Gin Asp Val Asn Leu 
340 345 350 

His Ser ser Arg Leu ser Phe Lys Glu Leu Leu Val Tyr Ala Ala Asp 
355 360 365 

Pro Ala Met His Ala Ala ser Gly Asn Leu Leu Leu Asp Lys Arg Thr 
370 375 380 

Thr Cys Phe ser Val Ala Ala Leu Thr Asn Asn val Ala Phe Gin Thr 
385 390 395 400 

val Lys Pro Gly Asn Phe Asn Lys Asp Phe Tyr Asp Phe Ala Val Ser 
405 410 415 

Lys Gly Phe Phe Lys Glu Gly Ser Ser val Glu Leu Lys His Phe Phe 
420 425 430 

Phe Ala Gin Asp Gly Asn Ala Ala lie Ser Asp Tyr Asp Tyr Tyr Arg 
435 440 445 
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Tyr Asn Leu Pro Thr Met Cys Asp He Arg Gin Leu Leu Phe Val val 
y 450 455 . 460 

Glu val val Asp Lys Tyr Phe Asp cys Tyr Asp Gly Gly cys He Asn 
465 470 475 480 

Ala Asn Gin val lie Val Asn Asn Leu Asp Lys Ser Ala Gly Phe Pro 
485 490 

Phe Asn Lys Trp Gly Lys Ala Arg Leu Tyr Tyr Asp Ser Met Ser Tyr 
500 505 510 

Glu Asp Gin Asp Ala Leu Phe Ala Tyr Thr Lys Arg Asn Val He Pro 
515 520 525 

Thr lie Thr Gin Met Asn Leu Lys Tyr Ala lie Ser Ala Lys Asn Arg 
530 535 540 

Ala Arg Thr val Ala Gly Val ser lie cys ser Thr Met Thr Asn Arg 
545 550 555 560 

Gin Phe His Gin Lys Leu Leu Lys ser lie Ala Ala Thr Arg Gly Ala 
565 570 575 

Thr Val Val lie Gly Thr Ser Lys Phe Tyr Gly Gly Trp His Asn Met 

Leu Lys Thr Val Tyr Ser Asp Val Glu Thr Pro His Leu Met Gly Trp 
595 600 605 

Asp Tyr Pro Lys Cys Asp Arg Ala Met Pro Asn Met Leu Arg lie Met 
610 615 620 

Ala ser Leu Val Leu Ala Arg Lys His Asn Thr Cys cys Asn Leu Ser 
625 630 635 640 

His Arg Phe Tyr Arg Leu Ala Asn Glu cys Ala Gin val Leu ser Glu 
645 650 655 

Met Val Met Cys Gly Gly ser Leu Tyr val Lys Pro Gly Gly Thr Ser 
660 665 670 

ser Gly Asp Ala Thr Thr Ala Tyr Ala Asn ser Val Phe Asn He Cys 
675 680 685 

Gin Ala val Thr Ala Asn Val Asn Ala Leu Leu Ser Thr Asp Gly Asn 
690 695 700 

Lys lie Ala Asp Lys Tyr val Arg Asn Leu Gin His Arg Leu Tyr Glu 
705 710 715 720 
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cys Leu Tyr Arg Asn Arg Asp Val Asp His Glu Phe Val Asp Glu Phe 
725 " 730 735 

Tyr Ala Tyr Leu Arg Lys His Phe ser Met Met lie Leu Ser Asp Asp 
740 745 750 

Ala Val val cys Tyr Asn ser Asn Tyr Ala Ala Gin Gly Leu val Ala 
755 760 765 

Ser lie Lys Asn Phe Lys Ala val Leu Tyr Tyr Gin Asn Asn Val Phe 
770 775 780 

Met Ser Glu Ala Lys Cys Trp Thr Glu Thr Asp Leu Thr Lys Gly Pro 
785 790 795 800 

His Glu Phe cys ser Gin His Thr Met Leu Val Lys Gin Gly Asp Asp 
805 810 815 

Tyr val Tyr Leu Pro Tyr Pro Asp Pro ser Arg lie Leu Gly Ala Gly 
820 825 830 

Cys Phe Val Asp Asp lie val Lys Thr Asp Gly Thr Leu Met lie Glu 
835 840 845 

Arg Phe val Ser Leu Ala lie Asp Ala Tyr Pro Leu Thr Lys His Pro 
850 855 860 

Asn Gin Glu Tyr Ala Asp val Phe His Leu Tyr Leu Gin Tyr lie Arg 
865 870 875 880 

Lys Leu His Asp Glu Leu Thr Gly His Met Leu Asp Met Tyr Ser val 
885 890 895 

Met Leu Thr Asn Asp Asn Thr ser Arg Tyr Trp Glu Pro Glu Phe Tyr 
900 905 910 

Glu Ala Met Tyr Thr Pro His Thr val Leu Gin Ala Val Gly Ala Cys 
915 920 925 

val Leu Cys Asn ser Gin Thr Ser Leu Arg Cys Gly Ala Cys He Arg 
930 935 940 

Arg Pro Phe Leu Cys Cys Lys cys Cys Tyr Asp His Val lie Ser Thr 
945 950 955 960 

Ser His Lys Leu val Leu Ser val Asn Pro Tyr val cys Asn Ala Pro 
965 970 975 

Gly Cys Asp Val Thr Asp val Thr Gin Leu Tyr Leu Gly Gly Met Ser 
980 985 990 
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'Tyr Tyr cys Lys ser His Lys Pro Pro lie Ser Phe Pro Leu Cys Al 
995 1000 1005 

Asn Gly Gin Val Phe Gly Leu Tyr Lys Asn Thr Cys Val Gly ser 
1010 1015 1020 

asp Asn val Thr Asp Phe Asn Ala lie Ala Thr cys Asp Trp Thr 
1025 1030 1035 

Asn Ala Gly Asp Tyr lie Leu Ala Asn Thr cys Thr Glu Arg Leu 
1040 " 1045 1050 

Lys Leu Phe Ala Ala Glu Thr Leu Lys Ala Thr Glu Glu Thr Phe 
1055 1060 1065 

Lys Leu Ser Tyr Gly lie Ala Thr Val Arg Glu Val Leu ser Asp 
y 1070 1075 1080 

Arq Glu Leu His Leu Ser Trp Glu val Gly Lys Pro Arg Pro Pro 
1085 1090 1095 

Leu Asn Arg Asn Tyr val Phe Thr Gly Tyr Arg val Thr Lys Asn 
1100 1105 1110 

ser Lys val Gin He Gly Glu Tyr Thr Phe Glu Lys Gly Asp Tyr 
1115 1120 1125 

Gly Asp Ala Val val Tyr Arg Gly Thr Thr Thr Tyr Lys Leu Asn 
1130 1135 1140 

val Gly Asp Tyr Phe Val Leu Thr ser His Thr Val Met Pro Leu 
1145 1150 1155 

ser Ala Pro Thr Leu Val Pro Gin Glu His Tyr Val Arg lie Thr 
1160 1165 1170 

Gly Leu Tyr Pro Thr Leu Asn lie Ser Asp Glu Phe ser ser Asn 
1175 1180 1185 

val Ala Asn Tyr Gin Lys Val Gly Met Gin Lys Tyr Ser Thr Leu 
1190 1195 1200 

Gin Gly Pro Pro Gly Thr Gly Lys Ser His Phe Ala lie Gly Leu 
1205 1210 1215 

Ala Leu Tyr Tyr Pro ser Ala Arg lie Val Tyr Thr Ala Cys Ser 
1220 1225 1230 

His Ala Ala Val Asp Ala Leu cys Glu Lys Ala Leu Lys Tyr Leu 
1235 1240 1245 
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Pro lie Asp Lys Cys ser Arg lie lie Pro Ala Arg Ala Arg Val 
1250 1255 1260 

Glu cys Phe Asp Lys Phe Lys Val Asn Ser Thr Leu Glu Gin Tyr 
1265 1270 1275 

val Phe Cys Thr val Asn Ala Leu Pro Glu Thr Thr Ala Asp lie 
1280 1285 1290 

val val Phe Asp Glu lie Ser Met Ala Thr Asn Tyr Asp Leu ser 
1295 1300 1305 

val val Asn Ala Arg Leu Arg Ala Lys His Tyr Val Tyr He Gly 
1310 1315 1320 

Asp Pro Ala Gin Leu Pro Ala Pro Arg Thr Leu Leu Thr Lys Gly 
1325 1330 1335 

Thr Leu Glu Pro Glu Tyr Phe Asn ser val Cys Arg Leu Met Lys 
1340 1345 1350 

Thr He Gly pro Asp Met Phe Leu Gly Thr cys Arg Arg cys Pro 
1355 1360 1365 

Ala Glu lie Val Asp Thr val Ser Ala Leu val Tyr Asp Asn Lys 
1370 1375 1380 

Leu Lys Ala His Lys Asp Lys Ser Ala Gin Cys Phe Lys Met Phe 
1385 1390 1395 

Tyr Lys Gly Val lie Thr His Asp Val Ser Ser Ala lie Asn Arg 
1400 1405 1410 

Pro Gin lie Gly Val Val Arg Glu Phe Leu Thr Arg Asn Pro Ala 
1415 1420 1425 

Trp Arg Lys Ala Val Phe lie Ser Pro Tyr Asn ser Gin Asn Ala 
1430 1435 1440 

val Ala Ser Lys lie Leu Gly Leu Pro Thr Gin Thr Val Asp Ser 
1445 1450 1455 

Ser Gin Gly Ser Glu Tyr Asp Tyr val lie Phe Thr Gin Thr Thr 
1460 1465 1470 

Glu Thr Ala His Ser Cys Asn val Asn Arg Phe Asn Val Ala lie 
1475 1480 1485 

Thr Arg Ala Lys lie Gly lie Leu cys He Met Ser Asp Arg Asp 
1490 1495 1500 
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Leu Tyr Asp Lys Leu Gin Phe Thr ser Leu Glu lie Pro Arg Arg 
1505 1510 1515 

Asn val Ala Thr Leu Gin Ala Glu Asn Val Thr Gly Leu Phe Lys 
1520 1525 1530 

Asp cys Ser Lys He lie Thr Gly Leu His Pro Thr Gin Ala Pro 
1535 1540 1545 

Thr His Leu Ser Val Asp He Lys Phe Lys Thr Glu Gly Leu cys 
1550 1555 1560 

val Asp lie Pro Gly lie Pro Lys Asp Met Thr Tyr Arg Arg Leu 
1565 1570 1575 

lie ser Met Met Gly Phe Lys Met Asn Tyr Gin val Asn Gly Tyr 
1580 1585 1590 

pro Asn Met Phe lie Thr Arg Glu Glu Ala He Arg His val Arg 
1595 1600 1605 

Ala Trp He Gly Phe Asp val Glu Gly cys His Ala Thr Arg Asp 
1610 1615 1620 

Ala Val Gly Thr Asn Leu Pro Leu Gin Leu Gly Phe ser Thr Gly 
1625 1630 1635 

val Asn Leu Val Ala Val Pro Thr Gly Tyr Val Asp Thr Glu Asn 
1640 1645 1650 

Asn Thr Glu Phe Thr Arg Val Asn Ala Lys Pro Pro Pro Gly Asp 
1655 1660 1665 

Gin Phe Lys His Leu lie Pro Leu Met Tyr Lys Gly Leu Pro Trp 
1670 1675 1680 

Asn Val Val Arg lie Lys He val Gin Met Leu Ser Asp Thr Leu 
1685 " 1690 1695 

lvs Gly Leu ser Asp Arg val val Phe val Leu Trp Ala His Gly 
1700 1705 1710 

Phe Glu Leu Thr ser Met Lys Tyr Phe Val Lys lie Gly Pro Glu 
1715 1720 1725 

Arg Thr cys cys Leu Cys Asp Lys Arg Ala Thr Cys Phe ser Thr 
y 1730 1735 1740 

Ser ser Asp Thr Tyr Ala Cys Trp Asn His Ser val Gly Phe Asp 
1745 " 1750 1755 
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Tvr val Tyr Asn Pro Phe Met lie Asp Val Gin Gin Trp Gly Phe 
1760 1765 1770 

Thr Gly Asn Leu Gin Ser Asn His Asp Gin His cys Gin val His 
1775 1780 1785 

Gly Asn Ala His val Ala ser cys Asp Ala He Met Thr Arg Cys 
1790 1795 1800 

Leu Ala val His Glu Cys Phe val Lys Arg val Asp Trp ser Val 
1805 1810 1815 

Glu Tyr Pro lie lie Gly Asp Glu Leu Arg val Asn Ser Ala cys 
1820 1825 1830 

Arq Lys Val Gin His Met Val val Lys ser Ala Leu Leu Ala Asp 
1835 1840 1845 

Lys Phe Pro val Leu His Asp lie Gly Asn Pro Lys Ala lie Lys 
1850 1855 I860 

Cys val Pro Gin Ala Glu val Glu Trp Lys Phe Tyr Asp Ala Gin 
1865 1870 1875 

Pro Cys Ser Asp Lys Ala Tyr Lys lie Glu Glu Leu Phe Tyr ser 
1880 1885 1890 

Tyr Ala Thr His His Asp Lys Phe Thr Asp Gly Val cys Leu Phe 
1895 1900 1905 

Trp Asn Cys Asn Val Asp Arg Tyr Pro Ala Asn Ala lie val cys 
1910 1915 1920 

Arg Phe Asp Thr Arg val Leu Ser Asn Leu Asn Leu Pro Gly cys 
1925 1930 1935 

Asp Gly Gly Ser Leu Tyr Val Asn Lys His Ala Phe His Thr Pro 
K 1940 1945 1950 

Ala Phe Asp Lys Ser Ala Phe Thr Asn Leu Lys Gin Leu Pro Phe 
1955 1960 1965 

Phe Tyr Tyr Ser Asp ser Pro cys Glu Ser His Gly Lys Gin Val 
1970 1975 1980 

Val Ser Asp lie Asp Tyr Val Pro Leu Lys ser Ala Thr Cys lie 
1985 1990 1995 

Thr Arg cys Asn Leu Gly Gly Ala val Cys Arg His His Ala Asn 
2000 2005 2010 
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2015 9 Gln Tyr L6U A £?n Ala "»' r Asn Met Met 11 e Ser Ala 

c.\j/,\j 2025 

Gly Phe ser Leu Trp He Tyr Lys Gin Phe Asp Thr Tyr Asn Leu 

2040 

Trp Asn Thr Phe Thr Arg Leu Gin Ser Leu Glu Asn val Ala Tyr 

2050 2055 

Asn Val Q val Asn Lys Gly Hi^ Phe Asp Gly His Al^ Gly Glu Ala 

Pro val 5 ser He lie Asn Asn Q Ala val Tyr Thr Ly^ val Asp Gly 

He Asp val Glu He Phe Glu Asn Lys Thr Thr Leu Pro val Asn 

2095 2100 

val Ala Phe Glu Leu Trp Ala Lys Arg Asn He Lys Pro Val Pro 

2110 2115 

GlU 2120 ^ 116 L6U ASn A f5, Leu G ^ val AS P Ile Ala Ala Asn 

£115 2130 

Thr val He Trp Asp Tyr Lys Arg Glu Ala Pro Ala His val ser 
^ J -- > - > 2140 2145 

Thr lie Gly Val cys Thr Met Thr Asp He Ala Lys Lys Pro Thr 

2155 2160 

Glu Ser. Ala Cys ser Ser LeV Q Thr val Leu Phe As^ Gly Arg val 

Glu Gly o Gin val Asp Leu Ph^ Arg Asn Ala Arg Asn^ Gly val Leu 

He Thr. Glu Gly ser Val LyS Q Gly Leu Thr Pro se^ Lys Gly Pro 

Ala Gin Ala ser val Asn Gly val Thr Leu He Gly Glu Ser val 
" xu 2215 2220 

Lys Th^ Gin Phe Asn Tyr Ph| Q Lys Lys val Asp Gly. He He Gin 

Gin Leu Q Pro Glu Thr Tyr Ph^ Thr Gin Ser Arg as| q Leu Glu Asp 

Phe Lys pro Arg ser Gin Met Glu Thr Asp Phe Leu Glu Leu Ala 

2260 2265 
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Met Asp Glu Phe lie Gin Arg Tyr Lys Leu Glu Gly Tyr Ala Phe 
2270 2275 2280 

Glu His lie val Tyr Gly Asp Phe ser His Gly Gin Leu Gly Gly 
2285 2290 2295 ■ 

Leu His Leu Met lie Gly Leu Ala Lys Arg Ser Gin Asp Ser Pro 
2300 2305 2310 

Leu Lys Leu Glu Asp Phe He Pro Met Asp ser Thr val Lys Asn 
2315 2320 2325 

Tyr Phe lie Thr Asp Ala Gin Thr Gly Ser Ser Lys Cys Val Cys 
2330 2335 2340 

ser val lie Asp Leu Leu Leu Asp Asp Phe val Glu lie lie Lys 
2345 2350 2355 

Ser Gin Asp Leu Ser val lie Ser Lys Val Val Lys val Thr lie 
2360 2365 2370 

Asp Tyr Ala Glu lie Ser Phe Met Leu Trp Cys Lys Asp Gly His 
2375 2380 2385 

Val Glu Thr Phe Tyr Pro Lys Leu Gin Ala Ser Gin Ala Trp Gin 
2390 2395 2400 

Pro Gly Val Ala Met Pro Asn Leu Tyr Lys Met Gin Arg Met Leu 
2405 2410 2415 

Leu Glu Lys cys Asp Leu Gin Asn Tyr Gly Glu Asn Ala val lie 
2420 2425 2430 

pro Lys Gly lie Met Met Asn val Ala Lys Tyr Thr Gin Leu cys 
2435 2440 2445 

Gin Tyr Leu Asn Thr Leu Thr Leu Ala val pro Tyr Asn Met Arg 
2450 2455 2460 

Val lie His Phe Gly Ala Gly Ser Asp Lys Gly Val Ala Pro Gly 
2465 2470 2475 

Thr Ala val Leu Arg Gin Trp Leu Pro Thr Gly Thr Leu Leu val 
2480 2485 2490 

Asp ser Asp Leu Asn Asp Phe val ser Asp Ala Asp Ser Thr Leu 
2495 2500 2505 

lie. Gly Asp Cys Ala Thr Val His Thr Ala Asn Lys Trp Asp Leu 
2510 2515 2520 
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He He Ser Asp Met Tyr Asp Pro Arg Thr Lys His Val Thr Lys 
2525 2530 2535 

Glu Asn Asp Ser Lys Glu Gly Phe Phe Thr Tyr Leu Cys Gly Phe 
2540 2545 2550 

lie Lys Gin Lys Leu Ala Leu Gly Gly Ser lie Ala Val Lys He 
2555 2560 2565 

Thr Glu His ser Trp Asn Ala Asp Leu Tyr Lys Leu Met Gly His 
2570 2575 2580 

Phe ser Trp Trp Thr Ala Phe val Thr Asn Val Asn Ala Ser Ser 
2585 2590 2595 

ser Glu Ala Phe Leu lie Gly Ala Asn Tyr Leu Gly Lys Pro Lys 
2600 2605 2610 

Glu Gin lie Asp Gly Tyr Thr Met His Ala Asn Tyr lie Phe Trp 
2615 2620 2625 

Arg Asn Thr Asn Pro lie Gin Leu Ser ser Tyr ser Leu Phe Asp 
2630 2635 2640 

Met Ser Lys Phe Pro Leu Lys Leu Arg Gly Thr Ala val Met ser 
2645 2650 2655 

Leu Lys Glu Asn Gin lie Asn Asp Met lie Tyr ser Leu Leu Glu 
2660 2665 2670 

Lys Gly Arg Leu He lie Arg Glu Asn Asn Arg Val Val Val Ser 
2675 2680 2685 

Ser Asp lie Leu val Asn Asn 
2690 2695 
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